我希望我的登台网站不被搜索引擎索引(谷歌为首)。如何防止登台在搜索引擎中编入索引
我听说Wordpress擅长这样做,但我想成为技术不可知论者。
robots.txt是否足够?我们希望保持匿名访问权限,让客户无需登录就可以看到它的网站。
我必须为每个页面添加nofollow吗?
我希望我的登台网站不被搜索引擎索引(谷歌为首)。如何防止登台在搜索引擎中编入索引
我听说Wordpress擅长这样做,但我想成为技术不可知论者。
robots.txt是否足够?我们希望保持匿名访问权限,让客户无需登录就可以看到它的网站。
我必须为每个页面添加nofollow吗?
我通常是反对临时服务器暴露在公共网络,但如果这是你的工作流程的最佳解决方案,这里有一些事情你可以考虑:
最小的方法
Disallow: /
最基本的方法是确保您不会在任何地方出现重复内容的情况下自我拍摄。通过注册一个单独的域名,它对于用户来说是一个干净的部门,什么是阶段,什么不是。当您需要移动环境时,它也更清洁一点,但这更具操作性。 CNAME也可以工作,但请记住使用Google和Bing网站管理员工具注册每个CNAME。这样你可以使用域删除工具,如果你需要。
劝方法
通过添加robots.txt,它可以防止搜索引擎访问和索引内容。但是,这并不意味着他们不会为网址编制索引。如果搜索引擎知道给定的URL,它可能会将其添加到搜索结果索引。您有时会在搜索结果中看到这些信息。标题往往是没有说明的URL。为防止这种情况发生,需要告知搜索引擎不要显示内容或URL。通过添加身份验证infront并且不响应200 OK状态代码,这对发动机而言不是将这些URL添加到其索引的强烈信号。根据我的经验,我从未见过在搜索引擎索引中列出的401响应代码页。
首选方法IP表背后
另外通过把后面的临时站点IP过滤器确保只有您的客户能够访问该网站。如果他们想要从其他计算机访问它,这可能是一个问题,有时会导致维护头痛,但如果您不想让分段环境编入索引,这是最好的方法。谨慎的说法是,您需要确保所有其他请求(例如搜索引擎和非客户端)都不会返回任何内容。他们应该收到超时响应,并且从不提供200 OK。通过提供其他信息,它可能被误认为是你不想要的隐形。
此外为了更加安全,我还将每个页面的元机器人或x-robots-header命令添加到NOINDEX,NOFOLLOW,以防IP配置失败或验证失败......这种情况很少见,但当有人因其他原因触摸配置时会发生这种情况。像robots.txt文件一样,如果它们被推送到生产环境中,您可以使用这些页面级别的机器人命令真正拍摄自己。所以,只要确保你的开发/临时环境处于干净的分离配置。否则,推出一个NOINDEX,NOFOLLOW或Disallow: /
将是灾难性的生产站点。
我将此代码添加到我的网站(在PHP编码):
if($_SERVER['HTTP_HOST'] == 'test.ate.io') {
header("X-Robots-Tag: noindex, nofollow", true);
}
这样一来,即使意外上演我的配置文件被推到我的生产服务器不会有任何问题。
TLDR;在根网站目录中创建一个robots.txt
文件。此文件应包含一行:
Disallow:/
这足以阻止谷歌和Bing机器人从索引你的网站,出现在搜索结果。
可以通过在阿帕奇CONF加入下面设置在全局或相同的参数可以在虚拟主机被用于禁用它仅用于特定的虚拟主机宽禁用该服务器。
页眉设置X-Robots-Tag中 “加入noindex,nofollow的”
一旦做到这一点,你可以通过Apache的标头中返回测试。
curl -I staging.mywebsite.com HTTP/1.1 302 Found Date: Sat, 26 Nov 2016 22:36:33 GMT Server: Apache/2.4.18 (Ubuntu) Location: /pages/ X-Robots-Tag: noindex, nofollow Content-Type: text/html; charset=UTF-8
“为每个页面添加meta或x-robots命令,其值为NOINDEX,NOFOLLOW”似乎是“添加robots.txt => Disallow:/”的好处。对于我来说,其余的答案对我来说太狭窄了:“我们想保持匿名访问”。我会试着看看会发生什么。感谢您的回答。 – toutpt
没问题:)祝你好运! – eywu
如果这一切都相同的代码库,也不会修改robots.txt文件造成任何服务器被忽略,而不仅仅是分期? –