如何禁止单个页面或文件中的漫游器

如何禁止单个页面中的漫游器并允许抓取所有其他内容。如何禁止单个页面或文件中的漫游器

它很重要，不会弄错，所以我在这里问，无法找到一个明确的答案在别处。

这是正确的吗？

User-Agent:* 
    Disallow: /dir/mypage.html 
    Allow:/

2011-07-21 Jimmy G

Disallow行是所有需要的。它将阻止访问以“/dir/mypage.html”开头的任何内容。

Allow行是多余的。 robots.txt的默认值是Allow: /。一般而言，Allow不是必需的。它在那里，以便您可以覆盖对某些不允许的内容的访问。例如，假设您想禁止访问“/ images”目录，但“public”子目录中的图像除外。你会写：

Allow: /images/public 
Disallow: /images

请注意，这里的顺序很重要。爬行者应该使用“第一匹配”算法。如果您先写'Disallow`，那么抓取工具会认为访问“/ images/public”被阻止。

2011-07-21 15:05:40

非常感谢Jim。这清楚地说明了关于相对简单主题的文本页面没有做到。我只能确定你明白。 –

回答