比较搜索机器人的URI？

对于搜索机器人，我工作的一个设计：
*比较URI和
*确定的URI实际上是同一个页面比较搜索机器人的URI？

与重定向和别名处理：
案例1：重定向
案例2：别名例如案例3：URL参数例如sukshma.net/node#parameter

我有两种方法可以遵循，一种方法是明确检查重定向以获得案例＃1。另一种方法是“硬编码”别名，如www，在案例＃2中工作。第二种方法（硬代码）别名很脆弱。 HTTP的URL规范没有提到使用www作为别名（RFC 2616）

我也打算使用Canonical元标记（HTTP/HTML），但如果我理解正确 - 我不能依赖标签在所有情况下都在那里。

请分享您的经验。你知道一个参考白皮书的实现检测搜索机器人的重复吗？

2009-12-11 Santosh

男人，这真是一个面试问题。 – 2009-12-11 04:03:47

真的，你为什么这么想？这是我写出这个问题的方式吗？ – Santosh 2009-12-13 03:56:14

构建您自己的网络爬虫是一个lot of work。考虑检查一些已经可用的开源蜘蛛，如JSpider，OpenWebSpider或many others。

2009-12-11 03:54:45

但是，我得到了要去的地方 - 我需要用于重复检测的技术和专有技术（而不仅仅是抓取）。你知道这些项目是否已经成功解决了吗？ – Santosh 2009-12-11 06:02:20

尽管我有自己的建议，但我已经构建了自己的爬网程序并为每个已爬网页面存储了校验和。如果一个页面可能与另一个页面重复，则根据其URL或其他标准，然后比较校验和以进行检查。 – 2009-12-11 06:22:30

的第一种情况将通过简单的检查HTTP status code来解决。

对于第二和第三例 Wikipedia解释非常好：URL Normalization/Canonicalization。

2010-01-15 01:08:23

回答