2015-02-08 32 views
0

我正在尝试创建抓取.edu域的webCrawler。我给我的程序的参数之一是numHops。跳数只是url中的数目?例如,让我们说www.harvard.edu在我的种子文件中(numHops = 0)。 然后,我通过www.harvard.edu解析更多的主题文字,并且我获得www.harvard.edu/faculty和www.harvard.edu/about。那么numHops = 1?当我解析这个网页的时候,我得到了www.harvard.edu/facult/robinson(numHops = 3)。这个想法有缺陷吗?也许当我爬行我可以得到一个完全随机的网站?我不知道如何基本上实现numHops。WebCrawler java numHops

+0

你*创建*?或者你是否正在使用他人的程序来完成我想要的大部分*?无论哪种方式,一个代码示例会很好,所以我们有一些关于你在说什么的想法。 – Jon 2015-02-08 19:03:54

回答

0

跳数只是url中的个数/ s吗?

不,那不是。只有当主页面上的所有链接直接钻入网站时,才会出现这种情况,每个链接添加一个/。跳跃次数就是您远离开始爬行的主页面的距离。在您的示例中,您从www.harvard.edu开始,因此您从该页面刮取的所有网址都是一跳。您从这些网页中抓取的所有网址都将距离首页两跳,等等。这些网页可能位于同一个网站上,一个或多个网页深度较大,或者它们可能完全位于不同的网站上,因此/ s的数量并没有真正告诉您任何内容。