网页抓取动态内容

我想用python windmill模块刮网页。但加载特定网页时它不断地卡住在该行：收到网页抓取动态内容

clientele.waits.forElement(xpath=u"//body[@class='yellow']/table", timeout=30000)

的错误是

raise WindmillTestClientException(result['result'])

但是当我尝试在一个单独的代码来凑这个网页它的工作原理。由于风车文件不够，我无法确定错误的原因。

有人可以帮助我识别错误或指向我一个更好的模块，即一个更好的记录？

“传统” 的回答简单的网页抓取Python中是[scrapy]（ http://scrapy.org/）。 – Ben 2013-03-23 20:56:17

三种流行的解决方案：

2013-06-16 12:45:12 McMeep

回答