2013-02-05 53 views
0

我们想为特定目的打开一个新域名(称为PR)。问题是我们希望域名指向我们目前拥有的同一个网站。阻止Google(和其他搜索引擎)从抓取域名

我们不希望这个新域出现在搜索引擎(特别是Google)上。

选项我们已经排除了:

  • 的Robots.txt无法使用 - 它会工作相同的两个领域,这是我们想要的不是。
  • The rel=canonical不会阻止 - 仅建议将索引类似的页面。原始页面可能最终被编入索引。

有没有办法解决这个问题?

编辑

关于.htaccess建议:我们是在IIS7。

+0

我知道你已经提到Robots.txt无法使用,因为它将用于两个域,这是False。 你能否扩展你的理由? – Torxed

+0

我认为如果'newdomain.com'代理'olddomain.com',两个域下都会出现相同的'robots.txt',除非它是动态生成的。 – pjmorse

+0

@Torxed,我不知道Robots.txt可以动态生成。由于我们谈论的是相同的物理位置 - 只有一个文件。 – JNF

回答

3

rel=canonical不是一个建议。它会告诉Google确切使用哪个页面。

说了这么多,服务是在域的页面时,你不希望索引你可以使用`x-robots-tag- to block those pages from being indexed:

只要任何支持的META标签中 将添加到新的X-机器人-Tag指令用于提供文件的HTTP标头。

不包括在谷歌搜索结果中的文件:

X-Robots-Tag: noindex

+0

这很有趣,我不知道这个标签。为了解决这个问题,它需要以请求域为条件,但是因为它将被包含在与代理相同的级别,或者重定向到原始域,这应该非常简单。 – pjmorse

+0

这是确保网站的管理部分永远不会被编入索引而不必将其列入robots.txt中的好方法,它告诉黑客在哪里可以找到它。 –

0

我会阻止通过说在该网站的根目录域中的.htaccess文件。

BrowserMatchNoCase SpammerRobot bad_bot 
Order Deny,Allow 
Deny from env=bad_bot 

你必须指定主要搜索引擎使用的不同机器人。 或者你可以允许所有已知的webbrowsers和白名单,而不是。

相关问题