2010-07-08 150 views
2

我正在尝试从网站读取数据。我可以看到我需要的值,但该值不会出现在下载的html代码中(使用urllib2)。该值由一些js文件创建,并作为该id的innerhtml嵌入到网页中。 PS:如何提取?原始的源代码不能呈现与浏览器不同的js!BeautifulSoup获取innerhtml数据

回答

1

有两种选择:让浏览器保存DOM(这包括脚本所做的所有更改)或使用JavaScript引擎执行嵌入式脚本。

对于后一种路由,请尝试使用基于Java的引擎,如Rhino,并使用env.js模拟浏览器。

+0

如何自动保存浏览器的DOM?感谢您的模拟器方法,但是您是否知道这样做的Python方法? – zubinmehta 2010-07-08 08:58:29

+0

按照mamoo的建议尝试Selenium。 – 2010-07-08 14:50:06