2009-12-11 46 views
2

对于搜索机器人,我工作的一个设计:
*比较URI和
*确定的URI实际上是同一个页面比较搜索机器人的URI?

与重定向和别名处理:
案例1:重定向
案例2:别名例如案例3:URL参数例如sukshma.net/node#parameter

我有两种方法可以遵循,一种方法是明确检查重定向以获得案例#1。另一种方法是“硬编码”别名,如www,在案例#2中工作。第二种方法(硬代码)别名很脆弱。 HTTP的URL规范没有提到使用www作为别名(RFC 2616)

我也打算使用Canonical元标记(HTTP/HTML),但如果我理解正确 - 我不能依赖标签在所有情况下都在那里。

请分享您的经验。你知道一个参考白皮书的实现检测搜索机器人的重复吗?

+0

男人,这真是一个面试问题。 – 2009-12-11 04:03:47

+0

真的,你为什么这么想?这是我写出这个问题的方式吗? – Santosh 2009-12-13 03:56:14

回答

0

构建您自己的网络爬虫是一个lot of work。考虑检查一些已经可用的开源蜘蛛,如JSpiderOpenWebSpidermany others

+0

但是,我得到了要去的地方 - 我需要用于重复检测的技术和专有技术(而不仅仅是抓取)。你知道这些项目是否已经成功解决了吗? – Santosh 2009-12-11 06:02:20

+0

尽管我有自己的建议,但我已经构建了自己的爬网程序并为每个已爬网页面存储了校验和。如果一个页面可能与另一个页面重复,则根据其URL或其他标准,然后比较校验和以进行检查。 – 2009-12-11 06:22:30