2013-03-30 115 views
3

我有很好的使用c#和vb.net的开发经验,但我需要一些指导。我想开发像搜索引擎一样的蜘蛛和爬虫,但我不知道如何:爬虫/蜘蛛检测新网站

  1. 如何检测网络中的新网站?就像Google检测并抓取网站一样,因为它已启动?
  2. 如何检测添加到任何网站的新页面?我可以检测并解析网站的所有页面,但这是时间过程吗?如何检测新添加的页面?
  3. 如何检测修改后的页面?
+0

您忘记了'java'标签。 –

+0

这是一个非常不同的问题,没有显示任何努力或任何。无论如何,祝您好运 – samayo

+0

检测您已经抓取的其他网站与该网站的链接是一种策略。 –

回答

0

主要有两种方式:

  1. 站点地图(谷歌这个词来了解更多) ,这也可以指示何时更新页面。
  2. 注意到您正在爬网的另一页上的新网站/页面的链接。

对于您已经知道的页面,您可以使用“If-Modified-Since”HTTP标头,它告诉服务器返回304响应,如果页面自指定日期起未发生更改。这可以节省您下载和解析页面,如果它没有改变,虽然显然你仍然不得不提出要求。这就是为什么站点地图是首选的,您可以立即获得有关整个站点的信息。当然网站不需要提供它们。

0

我不知道太多的C#ID开始编码的东西,运行网站:“www.spiderthissite.com”在谷歌和记录/位置/编号也使得通过链接的网页的HTML寻找链接和文件夹位置。

但是,您的问题很广泛,只需先给它一个爆炸,然后当你在某个点卡住时来到这里。