2010-08-27 48 views
2

网络开发中有什么方法可以确保抓取工具无法抓取您的网站吗?让网络抓取工具离开您的网站

User-agent: * 
Disallow:/

注意,这不会阻止不文明的机器人从建立索引:

+1

为什么?这是因为你在开发中,而是在一个“活的”区域?或者你甚至想要这个活的网站? – detly 2010-08-27 06:35:02

回答

3

确保?你可以用robots.txt礼貌地问(但他们可以被忽略),你可以用CAPTCHA(但它们可以被击败并给普通用户施加一个障碍)挡住障碍,并且你可以监视每个人的行为访客寻找僵尸模式(但机器人可以代理周期和速率限制)。

1

你可以在你的站点的根目录,这将防止文明机器人从索引它放置robots.txt文件包含以下内容。阻止他们的唯一方法是使用Captcha等技术。

当然,最好使用专门的开发机器,在您的网站正在建设时无法从互联网访问。

0

使用robots.txt指示或允许/禁止机器人将您的网站编入索引。

+0

请注意,爬行者可以忽略'robots.txt',正如David和Darin都提到的那样。 – 2010-08-27 06:35:08

1

您还可以根据crawlers user agent拒绝访问,当然这假设爬网程序使用的用户代理与常规浏览器不同。

+0

“坏”爬虫总是可以伪造用户代理,所以它也只是可以提供帮助的方法之一,但是mot禁止它们 – Laimoncijus 2010-08-27 06:52:24