使用selectorgadget.com解析HTML文件

2009-02-26 48 views 3 likes

如何使用美丽的汤和selectorgadget来刮掉网站。例如，我有一个网站 - (a newegg product)，我希望我的脚本能够返回该产品的所有规格（点击规格），我的意思是 - 英特尔，台式机......，2.4GHz，1066Mhz，。 .....，3年有限。使用selectorgadget.com解析HTML文件

使用selectorgadget后，我得到了与字符串 .desc

如何使用呢？

谢谢:)

来源

2009-02-26 rawnd

回答

检查的页面，我可以看到的规格被放置在一个div与ID pcraSpecs：

<div id="pcraSpecs"> 
    <script type="text/javascript">...</script> 
    <TABLE cellpadding="0" cellspacing="0" class="specification"> 
    <TR> 
     <TD colspan="2" class="title">Model</TD> 
    </TR> 
    <TR> 
     <TD class="name">Brand</TD> 
     <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD> 
    </TR> 
    <TR> 
     <TD class="name">Processors Type</TD> 
     <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>  
    </TR> 
    ... 
    </TABLE> 
</div>

递减是班里的表格单元格。

你想要做的是提取此表的内容。

soup.find(id="pcraSpecs").findAll("td")应该让你开始。

来源

2009-02-26 23:40:38

您是否尝试过使用Feedity - http://feedity.com从任何网页创建自定义RSS订阅源。

来源

2009-02-27 02:58:36

使用selectorgadget.com解析HTML文件

回答

相关问题