4
所以我使用python和beautifulsoup4(我没有绑定)来刮一个网站。问题是当我使用urlib抓取页面的html时,它不是整个页面,因为它的一部分是通过javascript生成的。有什么办法可以解决这个问题吗?Web动态javascript内容抓取网站
所以我使用python和beautifulsoup4(我没有绑定)来刮一个网站。问题是当我使用urlib抓取页面的html时,它不是整个页面,因为它的一部分是通过javascript生成的。有什么办法可以解决这个问题吗?Web动态javascript内容抓取网站
基本上有继续进行两个主要选项:
第一个选项是更难以实施和它的,一般来讲,更脆弱,但它并不需要真正的浏览器,并可以更快。
第二种选择是更好的方面,你得到什么其他真正的用户得到什么,你不会担心如何加载页面。 Selenium在页面上的locating elements功能非常强大 - 根本不需要BeautifulSoup
。但是,无论如何,这个选项比第一个慢。
希望有所帮助。
[尝试过的Python BeautifulSoup和Phantom JS:STILL无法抓取网站](http://stackoverflow.com/questions/22028775/tried-python-beautifulsoup-and-phantom-js-still-cant-刮网站) –