对于搜索机器人,我工作的一个设计:
*比较URI和
*确定的URI实际上是同一个页面比较搜索机器人的URI?
与重定向和别名处理:
案例1:重定向
案例2:别名例如案例3:URL参数例如sukshma.net/node#parameter
我有两种方法可以遵循,一种方法是明确检查重定向以获得案例#1。另一种方法是“硬编码”别名,如www,在案例#2中工作。第二种方法(硬代码)别名很脆弱。 HTTP的URL规范没有提到使用www作为别名(RFC 2616)
我也打算使用Canonical元标记(HTTP/HTML),但如果我理解正确 - 我不能依赖标签在所有情况下都在那里。
请分享您的经验。你知道一个参考白皮书的实现检测搜索机器人的重复吗?
男人,这真是一个面试问题。 – 2009-12-11 04:03:47
真的,你为什么这么想?这是我写出这个问题的方式吗? – Santosh 2009-12-13 03:56:14