2009-01-22 18 views

回答

6

假设蜘蛛是还跟尊重的robots.txt,你可以从下面的访问您的网站限制它:

User-agent: * 
Disallow:/

这将影响到所有的蜘蛛。通过为蜘蛛指定正确的用户代理缩小它的范围。

如果抓取工具不尊重您的robots.txt,您可能希望通过阻止其在防火墙中的IP来限制其访问您的网站。

编辑:你可以阅读更多关于robots.txt here

2

Robots.txt应该是您的第一个通话端口。搜索机器人应该记下这些设置并停止触击您拒绝访问的页面。这是很容易在你的网站具有以下语法的根创建一个文件来完成:

User-agent: * 
Disallow:/

这句法实际上是说:所有的搜索机器人(通配符*),你不准在/索引什么。更多的信息在robotstxt.org

如果这不起作用,下一步是禁止IP地址,如果可能的话。

0
User-agent: * 
Disallow:/
1

你也可以建立一个sitemap并注册站点地图与有问题的机器人。搜索引擎将使用站点地图来确定要打的页面以及频率。如果你的网站是完全动态的,它可能没有太大的帮助,但是如果你有很多静态页面,这是告诉蜘蛛每天没有变化的好方法。

0

robots.txt应该是您的第一选择。但是,如果机器人行为不当并且您无法控制防火墙,则可以设置.htaccess限制以通过IP禁止它。

1

如果它忽略了robots.txt,第二件最好的事情就是禁用它的useragent字符串。只要禁止IP就不会有太大用处,因为现在99%的蜘蛛分布在一堆服务器上。

相关问题