爬虫/蜘蛛检测新网站

我有很好的使用c＃和vb.net的开发经验，但我需要一些指导。我想开发像搜索引擎一样的蜘蛛和爬虫，但我不知道如何：爬虫/蜘蛛检测新网站

如何检测网络中的新网站？就像Google检测并抓取网站一样，因为它已启动？
如何检测添加到任何网站的新页面？我可以检测并解析网站的所有页面，但这是时间过程吗？如何检测新添加的页面？
如何检测修改后的页面？

来源

2013-03-30 Aslam Khan

您忘记了'java'标签。 –

这是一个非常不同的问题，没有显示任何努力或任何。无论如何，祝您好运 – samayo

检测您已经抓取的其他网站与该网站的链接是一种策略。 –

以下链接可能是有用的，找到新的网页

http://www.makeuseof.com/tag/build-basic-web-crawler-pull-information-website/

http://www.bitrepository.com/how-to-create-a-simple-web-data-extractor.html

来源

2013-03-30 12:31:20

主要有两种方式：

站点地图（谷歌这个词来了解更多），这也可以指示何时更新页面。
注意到您正在爬网的另一页上的新网站/页面的链接。

对于您已经知道的页面，您可以使用“If-Modified-Since”HTTP标头，它告诉服务器返回304响应，如果页面自指定日期起未发生更改。这可以节省您下载和解析页面，如果它没有改变，虽然显然你仍然不得不提出要求。这就是为什么站点地图是首选的，您可以立即获得有关整个站点的信息。当然网站不需要提供它们。

来源

2013-03-30 12:33:04

我不知道太多的C＃ID开始编码的东西，运行网站：“www.spiderthissite.com”在谷歌和记录/位置/编号也使得通过链接的网页的HTML寻找链接和文件夹位置。

但是，您的问题很广泛，只需先给它一个爆炸，然后当你在某个点卡住时来到这里。

来源

2013-03-30 12:58:51

爬虫/蜘蛛检测新网站

回答

相关问题