2009-06-11 19 views

回答

12

使用robot exclusion file,或者更好的密码保护测试领域使用robots.txt文件! “保护”你不希望别人看到的地方有点像在你的后门挂上一个标志,说“我已经离开这个开放,但请不要进来” :)

如果您Google webmaster tools注册,你可以请求删除搜索结果,如果你确保它不再通过访问他们的履带。

+3

+1对于'使用robots.txt文件'保护'你不希望别人看到的区域有点像在后门上挂着一个标志,说:“我已经把它打开了,但是请不要进来:) :) – UnkwnTech 2009-06-11 09:53:51

2

避免抓取工具为您的部分内容编制索引的最佳方法是通过您网站根目录的robots.txt文件。

下面是一个例子:

User-agent: * 
Allow:/
Crawl-delay: 5 

User-agent: * 
Disallow: /cgi-bin 
Disallow: /css 
Disallow: /img 
Disallow: /js 

在第一个块,我告诉他履带可以浏览所有。

第二个块有我希望他避免的文件夹列表。

这不是一个安全的方式确实保护它,因为一些爬虫不尊重它。

如果你真的想要保护它,最好的办法应该是在这些文件夹上有一个.htaccess文件来强制认证。

+0

你不需要一个“允许”参数。除了不允许的文件夹和文件以外的所有内容都将默认编入索引。 – TFM 2009-06-11 11:11:31

+0

与robots.txt相关的问题并不在于抓取工具,它将抓取工具视为最有趣的事情列表,将其视为最有意思的事情列表,并且在您告诉别人无论何处都会指出特殊情况。 – 2009-06-11 11:46:47

2

当心!你可以告诉“好”的机器人(如谷歌)远离某些地方,但其他机器人不会发挥出色。因此,正确解决这个问题的唯一方法就是对那些不被视为“公共”的地方添加一些限制。您可以限制对您信任的某些IP地址的访问,或者您可以添加用户名/密码认证。

2

也许正确的答案是不把测试代码放在公共网站上。为什么它是你部署的一部分?

2

如果你使用Apache:

的.htaccess

AuthUserFile //.htpasswd AuthGroupFile /dev/null AuthName "You must log in to access this development web site" AuthType Basic

<Limit GET>

require valid-user 

</Limit>

密码文件(htpasswd的),那么包含

name:password

的密码进行加密。如果您搜索“htpasswd”,您会发现许多免费程序为您加密密码。

TRiG。