2013-01-21 55 views
3

我google了很多,并阅读了大量的文章,但得到了不同的反应。子域vs子目录阻止爬虫

如果我想让我的网站的某个部分被搜索引擎索引,我对于哪一个更好一些有点困惑。基本上,我为我的网站进行了大量更新,也为客户设计了很多更新,我不希望为预览上传的所有“测试数据”进行索引,以避免重复的内容问题。

  1. 我应该使用一个子域和阻止整个子域

  2. 创建一个子目录,并使用robots.txt阻止它。

我是新来的网页设计和即将使用的子域(读的地方,这是一个有点先进的过程,甚至一个小小的失误就可能有大的后果有点不安全,而且马特·卡茨也提到类似的东西(source):

“我建议你使用子目录,直到你开始感到与你的网站的结构非常 有信心在这一点上,你会 更好的装备,以做出正确的决定你自己的网站。“

但另一方面,我对使用robots.txt以及任何人都可以访问该文件犹豫不决。

两者的优缺点是什么?

现在我的印象是,谷歌同样对待,最好去robots.txt的子目录,但我希望在“冒险”之前发表第二个意见。

+1

如果你把它放在网上假设有人会复制它。 Robots.txt是可选的 - 不道德的搜索引擎可以并且会简单地忽略它。如果必须成为部署站点的一部分,请在您的“测试区域”上输入用户名/密码。 –

回答

1

要么你问漫游器不要索引你的内容(→robots.txt的)你所有人关(→密码保护)。

对于此决定,与使用单独的子域或文件夹无关。您可以为两者使用robots.txt或密码保护。请注意,robots.txt始终必须放在文档根目录中。

使用robots.txt不能保证,这只是一个礼貌的请求。有礼的机器人会尊重它,其他人则不会。人类用户仍然可以访问您的“禁止”页面。即使那些荣誉您的robots.txt(例如谷歌)的机器人仍然可以链接到他们搜索的“不允许”内容(尽管如此,它们不会对内容进行索引)。

使用登录机制可以保护您的网页免受全部机器人和访问者的侵害。

+0

感谢您提供的信息非常丰富,我想我会选择密码保护。 – TDsouza