1
A
回答
1
Nutch通过HTTP请求获取所需页面的html源代码。现在,页面的html源代码可以包含编码在其中的下拉列表。如果使用像dojo/ajax这样的复杂脚本编码,那么它将无法像浏览器那样对其进行解释。如果下拉列表的链接直接在html源代码中看到,那么nutch将获得这些网页的抓取。除了正常的文本内容,Nutch还为HTML页面的Java脚本部分进行解析。
现在要验证这一点,请打开bowser/wget中的页面。在文本编辑器中查看页面源码,如记事本/ vi。你可以在那里看到下拉框的链接吗?如果是的话,那么nutch将会抓取那些没有链接的链接。
相关问题
- 1. 您是否使用过elasticsearch索引nutch爬行结果?
- 2. nutch爬行路径
- 3. Apache nutch不再爬行
- 4. 空的Nutch爬行列表
- 5. Nutch问题执行爬行
- 6. 在Nutch中增量爬行
- 7. 无法启动Nutch爬行
- 8. 获取Nutch爬行状态?
- 9. 在Solr中使用Nutch爬虫
- 10. Nutch的履带被爬行'作为€
- 11. 如何使用Nutch的-2.2.1爬行
- 12. 如何给深度的nutch 2.3爬行
- 13. 如何让apache nutch永久爬取
- 14. 用nutch 1.8爬行不同的网站
- 15. 如何加快在Nutch中爬行
- 16. 的Web爬行使用Solr的Nutch的
- 17. Nutch的不爬整个网站
- 18. 如何让Nutch的爬虫抓取
- 19. 是否可以在春天有嵌套窗体(窗体:窗体)
- 20. Nutch爬行没有错误,但结果是没有
- 21. Windows窗体是否是旧技术?
- 22. 如何检查窗体是否有任何ShowDialog()窗体打开?
- 23. 检查一个窗体窗体按钮是否被激活?
- 24. 根据子窗体是否可见来调整窗体大小
- 25. 是否可以定制Nutch Fetcher课程?
- 26. 在窗口上使用Nutch
- 27. 如何通过在apache nutch中爬行来提取html中specefic div的值?
- 28. 爬虫是否跳过HTML小标签中的内容?
- 29. 窗体上的控件是否为private?
- 30. 是否使用弹簧窗体标签?