如何阻止爬虫不能访问我的网站？

僵尸程序每隔几分钟或几小时爬过我的网站，由于资源短缺，我的网站变得不可用。机器人起源于俄罗斯。如何阻止爬虫不能访问我的网站？

如何阻止此机器人访问我的网站？

我已经解决了他的问题。

解决办法：

检查最新的访问者到你的域检查其始终访问用户代理。

在我的情况，我发现YandexBot

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

现在你已经发现了正在放缓您的服务器，继续阻止它的机器人。您可以用robots.txt或.htaccess

.htaccess方法做到这一点：

添加以下代码在里面。

#block bad bots with a 403 
BrowserMatchNoCase "Yandex" bots 
Order Allow,Deny 
Allow from ALL 
Deny from env=bots

或者

robots.txt方法：

添加以下代码在里面。

User-agent: Yandex 
Disallow:/

就是这样。你已经阻止了这个机器人。

2016-06-27 03:31:58

robots.txt是由它的行为，如果它想要和如果机器人是破坏性的，那么它不太可能会打扰服从那是什么。在Apache配置和/或iptables或防火墙中阻止更好。 –

拒绝指令应该是文件段内，尝试：

<Files 403.shtml> 
order allow,deny 
allow from all 
deny from xxx.xxx.xx.xxx 
</Files>

或者，你可以使用基于国防部重写IP封锁

RewriteEngine on 

RewriteCond %{REMOTE_ADDR} ^1\.2\.3\.4\.5$ 
RewriteRule - [F]

2016-06-26 14:56:40 starkeen

回答