2012-05-10 71 views
1

我想知道nutch 1.4是否能够立即抓取表格。例如,如果有下拉列表,它会尝试从下拉列表中的项目中获取所有可能的页面吗?nutch是否爬过窗体?

谢谢

回答

1

Nutch通过HTTP请求获取所需页面的html源代码。现在,页面的html源代码可以包含编码在其中的下拉列表。如果使用像dojo/ajax这样的复杂脚本编码,那么它将无法像浏览器那样对其进行解释。如果下拉列表的链接直接在html源代码中看到,那么nutch将获得这些网页的抓取。除了正常的文本内容,Nutch还为HTML页面的Java脚本部分进行解析。

现在要验证这一点,请打开bowser/wget中的页面。在文本编辑器中查看页面源码,如记事本/ vi。你可以在那里看到下拉框的链接吗?如果是的话,那么nutch将会抓取那些没有链接的链接。