假设我们使用的是简洁的URL与mod_rewrite
或类似的东西,并有以下两种途径:漂亮的URL和robots.txt的
/page
/page-two
现在,我们要禁止只有第一条路线(/page
)被机器人抓取。
# robots.txt
User-agent: *
Disallow: /page
不允许(http://www.robotstxt.org/orig.html):
...例如,不允许:/帮助不允许既/help.html和/help/index.html,而不允许:/帮助/将不允许/help/index.html,但允许/help.html。
那么以上robots.txt
的例子也是不允许/page-two
,对吗?
完成这件事的正确方法是什么?
可能是以下代码?
# robots.txt
User-agent: *
Disallow: /page/
'禁止:/ page'确实*不*禁止'/ page-two'。 –
你确定那个(考虑我的问题中robotstxt.org的引用)吗? :-O – Martin
谢谢约瑟夫! :-) – Martin