2015-10-06 122 views
3

我使用Apache Nutch 1.10来抓取网页并提取页面中的内容。某些链接包含在ajax调用中加载的动态内容。 Nutch无法抓取并提取ajax的动态内容。我该如何解决这个问题?有没有解决方法?如果是的话,请帮我解答。使用Nutch如何抓取uisng ajax网页的动态内容?

在此先感谢。

回答

4

大多数网络爬虫库不提供开箱即用的javascript渲染。您通常需要插入另一个库,或者提供像Selenium或PhantomJS这样的js渲染的产品。

这是tutorial using nutch and Selenium

+1

感谢您的回复。我已按照该链接中的说明进行操作。我已经包括硒插件一切都很好。但在爬行之后没有数据。如果我没有使用硒插件,我正在获取数据内容。 – yoganandh

+0

我有同样的问题,爬网后没有内容。你是否按照教程中的说明编译了nutch? – derelict