2014-04-29 34 views
0

将禁止某些文件夹中的robots.txt禁止其相关的子文件夹? 例子:是否需要在robots.txt中单独禁止相关的子文件夹?

Disallow:/folder/ 

将匹配:

/folder/page 
/folder/subfolder/page 

或者它只会匹配:

/folder/page 

所以,如果第二种情况是真实的,我需要不允许第二次及以后的子文件夹分别?

Disallow: /folder/ 

Disallow /folder/subfolder/ 

Disallow /folder/subfolder/onemorefolder 

回答

0

Robots.txt没有“文件夹”的概念,它只是字符串。无论你在Disallow指定为开头的URL路径的的

Disallow: /将阻止路径以/(=所有页面)开头的任何URL。

Disallow: /foo块,其路径上的任何网址开头/foo

  • /foo
  • /foobar
  • /foo.html
  • /foo/bar
  • /foo/bar/doe

Disallow: /foo/块,其路径始于/foo/任何网址:

  • /foo/
  • /foo/bar.html
  • /foo/bar
  • /foo/bar/doe
+0

很好的解释。谢谢! 我相信同样的概念在一堆其他类似的东西使用,例如像gitignore文件。我想知道除了星号之外,还有什么其他特殊字符可以让你制定规则。 – vaseech

+0

@vaseech:原来的robots.txt规范没有定义与'Disallow'值保留含义* *任何特殊字符。因此,如果您有'Disallow:/ foo *',那么'*'就会被字面解释,即包含星号的URL。但是,特定的消费者(如Googlebot)通常会扩展robots.txt规范并对某些字符进行不同的解释。 – unor

相关问题