nutch是否爬过窗体？

我想知道nutch 1.4是否能够立即抓取表格。例如，如果有下拉列表，它会尝试从下拉列表中的项目中获取所有可能的页面吗？nutch是否爬过窗体？

谢谢

2012-05-10 breakdown1986

Nutch通过HTTP请求获取所需页面的html源代码。现在，页面的html源代码可以包含编码在其中的下拉列表。如果使用像dojo/ajax这样的复杂脚本编码，那么它将无法像浏览器那样对其进行解释。如果下拉列表的链接直接在html源代码中看到，那么nutch将获得这些网页的抓取。除了正常的文本内容，Nutch还为HTML页面的Java脚本部分进行解析。

现在要验证这一点，请打开bowser/wget中的页面。在文本编辑器中查看页面源码，如记事本/ vi。你可以在那里看到下拉框的链接吗？如果是的话，那么nutch将会抓取那些没有链接的链接。

来源

2012-05-11 03:16:33

nutch是否爬过窗体？

回答

相关问题