我已经使用JSOUP进行抓取及其作品了,直到ajax和javascript没有发挥其显示网页内容的角色。如何使用jsoup抓取ajax加载的内容
现在大家有什么线索,如何抓取那些在页面完全加载后用ajax或JavaScript显示的内容。
在此先感谢!
我已经使用JSOUP进行抓取及其作品了,直到ajax和javascript没有发挥其显示网页内容的角色。如何使用jsoup抓取ajax加载的内容
现在大家有什么线索,如何抓取那些在页面完全加载后用ajax或JavaScript显示的内容。
在此先感谢!
你不能直接用JSoup做。你需要一个无头浏览器,这是一个非常复杂的事情。有无头版本的Firefox,Safari和其他版本。搜索“无头X”(其中X是您要使用的浏览器引擎)应该启动一些有用的项目。
您可以使用无头浏览器作为PhatomJS。
PhantomJS是一款带JavaScript API的无头WebKit脚本。它具有对各种Web标准的快速和本地支持:DOM处理,CSS选择器,JSON,Canvas和SVG。
为了方便您的工作,你可以使用CapserJS
CasperJS是PhatomJS伴侣带来一个很大的提高API来缓解刮和自动化工作流程的创建。
这些工具非常有用,当你需要抓取动态内容的网站时,比如在Javascript中运行进程后显示内容的网站(有时包括ajax调用)。
你可以看到一个关于如何卡斯帕在这里工作例如:
CasperJs and Jquery with chained Selects
感谢快速回复。 –