对于所有可用的HTTP数据,
您认为Google的搜索引擎机器人有什么“标志”?Google网页抓取机器人会遇到什么HTTP签名?
2
A
回答
3
How to verify googlebot - 官方的方法。
1
据我所知,Google的抓取工具已将用户代理设置为“Googlebot”。
其他搜索引擎提供商通常在用户代理中粘贴一个可识别的名称;有许多知名代理商的名单,例如http://www.jafsoft.com/searchengines/webbots.html。
+0
这是我一直在寻找的链接,谢谢! – 2009-05-29 18:26:41
1
的User-Agent头应该足以检测谷歌机器人
退房user-agents.org网站获得知名本身僵尸
的名单中,你想要确保这是从一个真实的Googlebot谷歌,那么你就可以检查出的IP /主机这始终是
C [NN] .googlebot.com
其中[nn]是一个数字。
0
那么,我不太确定如何维护它是做IP地址的DNS反向查找。我只会这样做,如果你担心欺骗谷歌的用户代理字符串,这是不太可能的。正如文章指出的那样,它也可以被欺骗。
你最好只匹配其已知的用户代理:
Regex.IsMatch(ua, @"googlebot|mediapartners-google|adsbot-google", RegexOptions.IgnoreCase);
相关问题
- 1. 如何防止Google机器人抓取特定页面
- 2. Windows手机网页抓取
- 3. 为什么Google抓取我的robots.txt阻止的网页?
- 4. 如何获取由Google抓取的私人网页
- 5. 为什么google bot在抓取我的网站时收到NullReferenceException?
- 6. 为什么我有时会遇到错误的主机名?
- 7. Google会抓取此网址吗?
- 8. Google如何抓取动态网页?
- 9. 为什么我会遇到SQLSyntaxErrorException - 遇到“”?
- 10. 个人网页抓取描述
- 11. scrapy:防止抓取机器人在facebook/facebook网站中抓取链接
- 12. 有什么宏记录器用于网页抓取自动化?
- 13. 嵌套标签网页抓取python
- 14. 使用Python网页抓取particualr标签
- 15. 如何让Google抓取需要会话数据的网页?
- 16. 如何设计抓取机器人?
- 17. JSON解析抓取在机器人
- 18. PHP获取网站的Google排名没有抓取Google
- 19. 网页抓取从网页上提取产品名称
- 20. 网站抓取,机器人身份识别
- 21. Beautifulsoup网页抓取
- 22. BeautifulSoup网页抓取
- 23. PHP网页抓取
- 24. Spyder - 网页抓取
- 25. 网页抓取/屏幕抓取
- 26. 网页抓取/抓取的资源
- 27. 为什么我的ASP网站内容没有被Google抓取?
- 28. 网页抓取/抓取基于GWT的网页
- 29. 屏幕抓取/网页抓取网址在搜索结果后不会改变
- 30. Python - 使用Comet和HTTP流式网页抓取页面
伟大的链接!有谁知道任何主要的谷歌IP路由? – divinci 2009-05-29 18:28:35