如何使用美丽的汤和selectorgadget来刮掉网站。例如,我有一个网站 - (a newegg product),我希望我的脚本能够返回该产品的所有规格(点击规格),我的意思是 - 英特尔,台式机......,2.4GHz,1066Mhz,。 .....,3年有限。使用selectorgadget.com解析HTML文件
使用selectorgadget后,我得到了与字符串 .desc
如何使用呢?
谢谢:)
如何使用美丽的汤和selectorgadget来刮掉网站。例如,我有一个网站 - (a newegg product),我希望我的脚本能够返回该产品的所有规格(点击规格),我的意思是 - 英特尔,台式机......,2.4GHz,1066Mhz,。 .....,3年有限。使用selectorgadget.com解析HTML文件
使用selectorgadget后,我得到了与字符串 .desc
如何使用呢?
谢谢:)
检查的页面,我可以看到的规格被放置在一个div与ID pcraSpecs:
<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>
递减是班里的表格单元格。
你想要做的是提取此表的内容。
soup.find(id="pcraSpecs").findAll("td")
应该让你开始。
您是否尝试过使用Feedity - http://feedity.com从任何网页创建自定义RSS订阅源。