2012-09-03 123 views

回答

1

首先,您应该在域的Web根目录中创建一个robots.txt文件来解决两个问题。首先控制抓取网站的速度,这可以帮助防止僵尸/蜘蛛同时创建大量的数据库连接。其次是防止特定漫游器爬取网站。使用下面的默认值,但您可能需要添加或删除代理人否认了用户,并调整抓取速度

示例代码:

User-agent: * 
Crawl-delay: 10 

User-agent: Baiduspider 
Disallow:/

User-agent: Sosospider 
Disallow:/

使用的/robots.txt时有两个重要的因素:

  1. 机器人可以忽略您的/robots.txt。尤其是扫描网络中的安全漏洞的恶意软件机器人,以及垃圾邮件发送者使用的电子邮件地址收集器都不会引起注意。
  2. /robots.txt文件是公开可用的文件。任何人都可以看到你不想让机器人使用的服务器部分。