2011-07-21 25 views
0

如何禁止单个页面中的漫游器并允许抓取所有其他内容。如何禁止单个页面或文件中的漫游器

它很重要,不会弄错,所以我在这里问,无法找到一个明确的答案在别处。

这是正确的吗?

User-Agent:* 
    Disallow: /dir/mypage.html 
    Allow:/

回答

0

Disallow行是所有需要的。它将阻止访问以“/dir/mypage.html”开头的任何内容。

Allow行是多余的。 robots.txt的默认值是Allow: /。一般而言,Allow不是必需的。它在那里,以便您可以覆盖对某些不允许的内容的访问。例如,假设您想禁止访问“/ images”目录,但“public”子目录中的图像除外。你会写:

Allow: /images/public 
Disallow: /images 

请注意,这里的顺序很重要。爬行者应该使用“第一匹配”算法。如果您先写'Disallow`,那么抓取工具会认为访问“/ images/public”被阻止。

+0

非常感谢Jim。这清楚地说明了关于相对简单主题的文本页面没有做到。我只能确定你明白。 –

相关问题