我正在尝试创建抓取.edu域的webCrawler。我给我的程序的参数之一是numHops。跳数只是url中的数目?例如,让我们说www.harvard.edu在我的种子文件中(numHops = 0)。 然后,我通过www.harvard.edu解析更多的主题文字,并且我获得www.harvard.edu/faculty和www.harvard.edu/about。那么numHops = 1?当我解析这个网页的时候,我得到了www.harvard.edu/facult/robinson(numHops = 3)。这个想法有缺陷吗?也许当我爬行我可以得到一个完全随机的网站?我不知道如何基本上实现numHops。WebCrawler java numHops
0
A
回答
0
跳数只是url中的个数/ s吗?
不,那不是。只有当主页面上的所有链接直接钻入网站时,才会出现这种情况,每个链接添加一个/
。跳跃次数就是您远离开始爬行的主页面的距离。在您的示例中,您从www.harvard.edu
开始,因此您从该页面刮取的所有网址都是一跳。您从这些网页中抓取的所有网址都将距离首页两跳,等等。这些网页可能位于同一个网站上,一个或多个网页深度较大,或者它们可能完全位于不同的网站上,因此/
s的数量并没有真正告诉您任何内容。
相关问题
- 1. WebCrawler中的OutOfMemoryException
- 2. c#Webcrawler优化
- 3. Webcrawler - 取链接
- 4. WebCrawler递归
- 5. 关于Python Webcrawler
- 6. webcrawler语法错误
- 7. 自定义NodeJS Webcrawler
- 8. crawler4j中WebCrawler的参数
- 9. 实现一个PHP的WebCrawler
- 10. webcrawler链接提取问题
- 11. Block webcrawler/bot AWS elastic bean stalk
- 12. 使用Snort IDS与Webcrawler
- 13. 好网站测试webcrawler
- 14. 编写我的第一个webcrawler
- 15. Webcrawler - 重复和怪异的计数
- 16. “webspider”和“webcrawler”之间的区别?
- 17. 使用sax和webcrawler的网站地图
- 18. 获取重定向的url PowerShell for webcrawler
- 19. 使用webcrawler下载pdf文件
- 20. webcrawler分析找到的页面
- 21. 错误在第一次尝试Ruby webcrawler
- 22. 良好webcrawler'礼仪'的指导
- 23. 将python webcrawler从2.7转换为3.4
- 24. 与webcrawler链接出现问题
- 25. 追赶谷歌的搜索“下一页” - Jsoup的WebCrawler
- 26. 如何在ruby webcrawler中检查空页面和HTTPErrors
- 27. 如何避免webcrawler重定向到移动版本?
- 28. LinkFinder.find无法在webcrawler应用程序中工作
- 29. 短途WebCrawler的API不正确对待相对URL
- 30. Perl的WebCrawler的简单的动态内容“监听器”
你*创建*?或者你是否正在使用他人的程序来完成我想要的大部分*?无论哪种方式,一个代码示例会很好,所以我们有一些关于你在说什么的想法。 – Jon 2015-02-08 19:03:54