2013-05-31 49 views
3

我已经使用JSOUP进行抓取及其作品了,直到ajax和javascript没有发挥其显示网页内容的角色。如何使用jsoup抓取ajax加载的内容

现在大家有什么线索,如何抓取那些在页面完全加载后用ajax或JavaScript显示的内容。

在此先感谢!

回答

1

你不能直接用JSoup做。你需要一个无头浏览器,这是一个非常复杂的事情。有无头版本的Firefox,Safari和其他版本。搜索“无头X”(其中X是您要使用的浏览器引擎)应该启动一些有用的项目。

+0

感谢快速回复。 –

3

您可以使用无头浏览器作为PhatomJS

PhantomJS是一款带JavaScript API的无头WebKit脚本。它具有对各种Web标准的快速和本地支持:DOM处理,CSS选择器,JSON,Canvas和SVG。

为了方便您的工作,你可以使用CapserJS

CasperJS是PhatomJS伴侣带来一个很大的提高API来缓解刮和自动化工作流程的创建。

这些工具非常有用,当你需要抓取动态内容的网站时,比如在Javascript中运行进程后显示内容的网站(有时包括ajax调用)。

你可以看到一个关于如何卡斯帕在这里工作例如:
CasperJs and Jquery with chained Selects