一个robots.txt允许爬行只有活网站其余的应该被禁止

我有一个直播网站“www.faisal.com”或“faisal.com”，有两个测试Web服务器如下

“faisal.jupiter.com”和“faisal.dev.com”

我想要一个robots.txt来处理这一切，我不希望爬虫从“faisal.jupiter.com”和“faisal.dev.com”索引页面，只允许从“www.faisal。 com“或”faisal.com“

我想要一个robots.txt文件，它将在所有的Web服务器上，并且应该只允许索引只有活网站。

2010-09-30 d-man

disallow命令只指定相对URL，所以我猜你不能拥有相同的robots.txt文件。

为什么不强制在开发/测试服务器上进行HTTP认证？

这样机器人将无法抓取这些服务器。

特别是现在似乎是一个好主意，如果你想允许特定人员进行检查，但不是每个人都试图找到你尚未调试新版本的缺陷......

，你给了地址，以每个人都在网上。

2010-09-30 07:31:04 siukurnin

根据需要访问开发人员和测试服务器的人员以及从何处访问，可以使用.htaccess或iptables来限制IP地址级别。

或者，您可以将您的robots.txt文件与Web应用程序本身分开，以便可以控制其相对于环境的内容。

2011-07-08 05:32:29

回答