如果搜索引擎蜘蛛正在敲击我的网站，我该怎么办？

我运行一个小型的网络服务器，最近它被搜索引擎蜘蛛弄成奶油。冷却它的正确方法是什么？我应该定期发送5xx回复吗？有没有我应该使用的robots.txt设置？或者是其他东西？如果搜索引擎蜘蛛正在敲击我的网站，我该怎么办？

2009-01-22 mike

假设蜘蛛是还跟尊重的robots.txt，你可以从下面的访问您的网站限制它：

User-agent: * 
Disallow:/

这将影响到所有的蜘蛛。通过为蜘蛛指定正确的用户代理缩小它的范围。

如果抓取工具不尊重您的robots.txt，您可能希望通过阻止其在防火墙中的IP来限制其访问您的网站。

编辑：你可以阅读更多关于robots.txt here。

2009-01-22 23:54:43

Robots.txt应该是您的第一个通话端口。搜索机器人应该记下这些设置并停止触击您拒绝访问的页面。这是很容易在你的网站具有以下语法的根创建一个文件来完成：

User-agent: * 
Disallow:/

这句法实际上是说：所有的搜索机器人（通配符*），你不准在/索引什么。更多的信息在robotstxt.org

如果这不起作用，下一步是禁止IP地址，如果可能的话。

2009-01-22 23:55:32

User-agent: * 
Disallow:/

2009-01-22 23:55:56

你也可以建立一个sitemap并注册站点地图与有问题的机器人。搜索引擎将使用站点地图来确定要打的页面以及频率。如果你的网站是完全动态的，它可能没有太大的帮助，但是如果你有很多静态页面，这是告诉蜘蛛每天没有变化的好方法。

2009-01-23 00:08:15 jwmiller5

robots.txt应该是您的第一选择。但是，如果机器人行为不当并且您无法控制防火墙，则可以设置.htaccess限制以通过IP禁止它。

2009-01-24 05:27:55

如果它忽略了robots.txt，第二件最好的事情就是禁用它的useragent字符串。只要禁止IP就不会有太大用处，因为现在99％的蜘蛛分布在一堆服务器上。

2009-01-24 05:45:06 flussence

回答