让网络抓取工具离开您的网站

网络开发中有什么方法可以确保抓取工具无法抓取您的网站吗？让网络抓取工具离开您的网站

User-agent: * 
Disallow:/

注意，这不会阻止不文明的机器人从建立索引：

为什么？这是因为你在开发中，而是在一个“活的”区域？或者你甚至想要这个活的网站？ – detly 2010-08-27 06:35:02

确保？你可以用robots.txt礼貌地问（但他们可以被忽略），你可以用CAPTCHA（但它们可以被击败并给普通用户施加一个障碍）挡住障碍，并且你可以监视每个人的行为访客寻找僵尸模式（但机器人可以代理周期和速率限制）。

2010-08-27 06:32:49 Quentin

你可以在你的站点的根目录，这将防止文明机器人从索引它放置robots.txt文件包含以下内容。阻止他们的唯一方法是使用Captcha等技术。

当然，最好使用专门的开发机器，在您的网站正在建设时无法从互联网访问。

2010-08-27 06:31:59

使用robots.txt指示或允许/禁止机器人将您的网站编入索引。

2010-08-27 06:33:13 Kangkan

请注意，爬行者可以忽略'robots.txt'，正如David和Darin都提到的那样。 – 2010-08-27 06:35:08

您还可以根据crawlers user agent拒绝访问，当然这假设爬网程序使用的用户代理与常规浏览器不同。

2010-08-27 06:37:05

“坏”爬虫总是可以伪造用户代理，所以它也只是可以提供帮助的方法之一，但是mot禁止它们 – Laimoncijus 2010-08-27 06:52:24

回答