WebCrawler java numHops

我正在尝试创建抓取.edu域的webCrawler。我给我的程序的参数之一是numHops。跳数只是url中的数目？例如，让我们说www.harvard.edu在我的种子文件中（numHops = 0）。然后，我通过www.harvard.edu解析更多的主题文字，并且我获得www.harvard.edu/faculty和www.harvard.edu/about。那么numHops = 1？当我解析这个网页的时候，我得到了www.harvard.edu/facult/robinson（numHops = 3）。这个想法有缺陷吗？也许当我爬行我可以得到一个完全随机的网站？我不知道如何基本上实现numHops。WebCrawler java numHops

来源

2015-02-08 Ria

你*创建*？或者你是否正在使用他人的程序来完成我想要的大部分*？无论哪种方式，一个代码示例会很好，所以我们有一些关于你在说什么的想法。 – Jon 2015-02-08 19:03:54

跳数只是url中的个数/ s吗？

不，那不是。只有当主页面上的所有链接直接钻入网站时，才会出现这种情况，每个链接添加一个/。跳跃次数就是您远离开始爬行的主页面的距离。在您的示例中，您从www.harvard.edu开始，因此您从该页面刮取的所有网址都是一跳。您从这些网页中抓取的所有网址都将距离首页两跳，等等。这些网页可能位于同一个网站上，一个或多个网页深度较大，或者它们可能完全位于不同的网站上，因此/ s的数量并没有真正告诉您任何内容。

来源

2015-02-08 19:10:46

WebCrawler java numHops

回答

相关问题