我有很好的使用c#和vb.net的开发经验,但我需要一些指导。我想开发像搜索引擎一样的蜘蛛和爬虫,但我不知道如何:爬虫/蜘蛛检测新网站
- 如何检测网络中的新网站?就像Google检测并抓取网站一样,因为它已启动?
- 如何检测添加到任何网站的新页面?我可以检测并解析网站的所有页面,但这是时间过程吗?如何检测新添加的页面?
- 如何检测修改后的页面?
我有很好的使用c#和vb.net的开发经验,但我需要一些指导。我想开发像搜索引擎一样的蜘蛛和爬虫,但我不知道如何:爬虫/蜘蛛检测新网站
主要有两种方式:
对于您已经知道的页面,您可以使用“If-Modified-Since”HTTP标头,它告诉服务器返回304响应,如果页面自指定日期起未发生更改。这可以节省您下载和解析页面,如果它没有改变,虽然显然你仍然不得不提出要求。这就是为什么站点地图是首选的,您可以立即获得有关整个站点的信息。当然网站不需要提供它们。
我不知道太多的C#ID开始编码的东西,运行网站:“www.spiderthissite.com”在谷歌和记录/位置/编号也使得通过链接的网页的HTML寻找链接和文件夹位置。
但是,您的问题很广泛,只需先给它一个爆炸,然后当你在某个点卡住时来到这里。
您忘记了'java'标签。 –
这是一个非常不同的问题,没有显示任何努力或任何。无论如何,祝您好运 – samayo
检测您已经抓取的其他网站与该网站的链接是一种策略。 –