0
如何禁止单个页面中的漫游器并允许抓取所有其他内容。如何禁止单个页面或文件中的漫游器
它很重要,不会弄错,所以我在这里问,无法找到一个明确的答案在别处。
这是正确的吗?
User-Agent:*
Disallow: /dir/mypage.html
Allow:/
如何禁止单个页面中的漫游器并允许抓取所有其他内容。如何禁止单个页面或文件中的漫游器
它很重要,不会弄错,所以我在这里问,无法找到一个明确的答案在别处。
这是正确的吗?
User-Agent:*
Disallow: /dir/mypage.html
Allow:/
Disallow
行是所有需要的。它将阻止访问以“/dir/mypage.html”开头的任何内容。
Allow
行是多余的。 robots.txt的默认值是Allow: /
。一般而言,Allow
不是必需的。它在那里,以便您可以覆盖对某些不允许的内容的访问。例如,假设您想禁止访问“/ images”目录,但“public”子目录中的图像除外。你会写:
Allow: /images/public
Disallow: /images
请注意,这里的顺序很重要。爬行者应该使用“第一匹配”算法。如果您先写'Disallow`,那么抓取工具会认为访问“/ images/public”被阻止。
非常感谢Jim。这清楚地说明了关于相对简单主题的文本页面没有做到。我只能确定你明白。 –