2017-09-25 87 views
0

从谷歌的支持网站所需的正向DNS -为什么是验证爬虫

验证Googlebot作为来电:

运行使用的访问IP地址反向DNS查找从日志, 主机命令。确认域名位于 googlebot.com或google.com在域名 域名 上使用检索到的 域名上的host命令运行正向DNS查找。验证它是否与原始访问IP 地址的日志相同。

我的问题是为什么正向DNS查找是必需的?攻击者可以创建一个形式为crawl-xx-xx-xx-xx.googlebot.com的DNS记录吗?

我实际上在我的日志中也看到了这个 - 来自其他爬虫。叶的,如果我反向DNS查找来自正确的域名,但正向查找不会返回IP。想知道这怎么可能..

回答

1

反向区域可以由任何人提供服务。如果您拥有IP空间,并让您的isp转发反向查找,则可以提供指向您想要的任何内容的反向区域。

作为一个攻击者能买到的任何IP块,并为我区4.3.2.1.in-addr.arpa,说所有的记录都在crawl-xx-xx-xx-xx.googlebot.com

我无法控制谷歌的该区域正向DNS虽然。所以即使我可以得到1.2.3.4的反向查找以返回crawl-12-34-56-78.googlebot.com,但我无法在crawl-12-34-56-78.googlebot.com上进行正向查找以返回1.2.3.4

您的日志中的不一致条目几乎可以肯定是第三方机器人试图(很好地)模仿谷歌。

+0

谢谢,这很清楚。我看到很多百度蜘蛛UA现在也有这种确切的行为。我想知道所有主要的搜索引擎爬虫是否坚持这种做法? – WeaselFox