我运行一个小型的网络服务器,最近它被搜索引擎蜘蛛弄成奶油。冷却它的正确方法是什么?我应该定期发送5xx回复吗?有没有我应该使用的robots.txt设置?或者是其他东西?如果搜索引擎蜘蛛正在敲击我的网站,我该怎么办?
1
A
回答
6
假设蜘蛛是还跟尊重的robots.txt,你可以从下面的访问您的网站限制它:
User-agent: *
Disallow:/
这将影响到所有的蜘蛛。通过为蜘蛛指定正确的用户代理缩小它的范围。
如果抓取工具不尊重您的robots.txt,您可能希望通过阻止其在防火墙中的IP来限制其访问您的网站。
编辑:你可以阅读更多关于robots.txt here。
2
Robots.txt应该是您的第一个通话端口。搜索机器人应该记下这些设置并停止触击您拒绝访问的页面。这是很容易在你的网站具有以下语法的根创建一个文件来完成:
User-agent: *
Disallow:/
这句法实际上是说:所有的搜索机器人(通配符*),你不准在/索引什么。更多的信息在robotstxt.org
如果这不起作用,下一步是禁止IP地址,如果可能的话。
0
User-agent: *
Disallow:/
1
你也可以建立一个sitemap并注册站点地图与有问题的机器人。搜索引擎将使用站点地图来确定要打的页面以及频率。如果你的网站是完全动态的,它可能没有太大的帮助,但是如果你有很多静态页面,这是告诉蜘蛛每天没有变化的好方法。
0
robots.txt应该是您的第一选择。但是,如果机器人行为不当并且您无法控制防火墙,则可以设置.htaccess限制以通过IP禁止它。
1
如果它忽略了robots.txt,第二件最好的事情就是禁用它的useragent字符串。只要禁止IP就不会有太大用处,因为现在99%的蜘蛛分布在一堆服务器上。
相关问题
- 1. Ruby网络蜘蛛和搜索引擎库
- 2. 搜索引擎优化 - 重定向跳计数网站蜘蛛工具
- 3. 搜索引擎中的蜘蛛如何工作?
- 4. 如何让搜索引擎显示我们网站的结果?
- 5. 如何向搜索引擎蜘蛛提供区域内容?
- 6. 在Django中,为搜索引擎蜘蛛禁用@login_required
- 7. 我该怎么做? (WordPress的搜索引擎优化)
- 8. 搜索引擎蜘蛛能看到我使用jQuery添加的内容吗?
- 9. Google正在搜索AWS Elasticbeans网站(mysite.elasticbeanstalk.com),但不是我的网站(mysite.com)。该怎么办?
- 10. 从搜索引擎中删除我的网站的AMP结果?
- 11. 哪些搜索引擎蜘蛛执行javascript?
- 12. 机器人引擎名称为搜索蜘蛛
- 13. 为什么googlebot使用我的网站的搜索引擎?
- 14. 如果我通过JavaScript在页面中添加内容,它将被搜索引擎蜘蛛抓取
- 15. 为什么搜索引擎不能抓取我的网站?
- 16. 我的网站如何在搜索引擎中出现
- 17. ASP.NET网站搜索引擎
- 18. 网站搜索引擎
- 19. 网站搜索引擎
- 20. 网站搜索引擎
- 21. 最佳网站蜘蛛?
- 22. 我的网站崩溃了Firefox。我该怎么办?
- 23. 我该如何解决我没有这么搜索引擎友好的网址?
- 24. 搜索引擎索引Flash网站?
- 25. Nutch,蜘蛛,索引网页它已经在它的索引?
- 26. 如果抛出IOException,我该怎么办?
- 27. 如何在我的网站使用cURL从搜索引擎中提取结果
- 28. 我该怎么办?
- 29. 如何加快我的网站搜索引擎?
- 30. 如何使用Bing作为我网站上的搜索引擎?