2010-09-30 30 views
0

我需要关于robots.txt使用的指南问题如下。一个robots.txt允许爬行只有活网站其余的应该被禁止

我有一个直播网站“www.faisal.com”或“faisal.com”,有两个测试Web服务器如下

“faisal.jupiter.com”和“faisal.dev.com”

我想要一个robots.txt来处理这一切,我不希望爬虫从“faisal.jupiter.com”和“faisal.dev.com”索引页面,只允许从“www.faisal。 com“或”faisal.com“

我想要一个robots.txt文件,它将在所有的Web服务器上,并且应该只允许索引只有活网站。

回答

1

disallow命令只指定相对URL,所以我猜你不能拥有相同的robots.txt文件。

为什么不强制在开发/测试服务器上进行HTTP认证?

这样机器人将无法抓取这些服务器。

特别是现在似乎是一个好主意,如果你想允许特定人员进行检查,但不是每个人都试图找到你尚未调试新版本的缺陷......

,你给了地址,以每个人都在网上。

1

根据需要访问开发人员和测试服务器的人员以及从何处访问,可以使用.htaccess或iptables来限制IP地址级别。

或者,您可以将您的robots.txt文件与Web应用程序本身分开,以便可以控制其相对于环境的内容。

相关问题