2009-05-29 23 views

回答

1

据我所知,Google的抓取工具已将用户代理设置为“Googlebot”。

其他搜索引擎提供商通常在用户代理中粘贴一个可识别的名称;有许多知名代理商的名单,例如http://www.jafsoft.com/searchengines/webbots.html

+0

这是我一直在寻找的链接,谢谢! – 2009-05-29 18:26:41

1

User-Agent头应该足以检测谷歌机器人

退房user-agents.org网站获得知名本身僵尸

的名单中,你想要确保这是从一个真实的Googlebot谷歌,那么你就可以检查出的IP /主机这始终是

C [NN] .googlebot.com

其中[nn]是一个数字。

0

那么,我不太确定如何维护它是做IP地址的DNS反向查找。我只会这样做,如果你担心欺骗谷歌的用户代理字符串,这是不太可能的。正如文章指出的那样,它也可以被欺骗。

你最好只匹配其已知的用户代理:

Regex.IsMatch(ua, @"googlebot|mediapartners-google|adsbot-google", RegexOptions.IgnoreCase);