2013-01-02 43 views
5

在您告诉我'您尝试了什么'和'自己测试'之前,我想注意的是robots.txt更新非常慢,我的网站搜索引擎上的任何网站,所以如果您可以提供理论经验,将不胜感激。我可以使用robots.txt阻止某些网址参数吗?

例如,是否可以允许:

http://www.example.com 

和块:

http://www.example.com/?foo=foo 

我不是很肯定。

帮助?

+1

,你可以尝试使用机器人仿真器,但使用** **否认robots.txt中并不意味着所有的机器人将遵循它! –

回答

6

Wikipedia“的robots.txt的图案由简单的字符串匹配的比较”,并为GET字符串是一个URL,你应该能够只需添加:

Disallow: /?foo=foo 

或更多的东西花哨像

Disallow: /*?* 

禁用所有获取字符串。星号是通配符,因此它匹配任何一个或多个字符。

Example of a robots.txt with dynamic urls.

+0

想知道,是否可以用'?foo = foo'来阻止所有的URL,而不仅仅是基础目录? – think123

+0

当然,如果您删除正斜杠,它只会匹配网址中任何位置的字符串。 –

+1

请注意'*'通配符不是原始robots.txt规范的一部分。 – unor

相关问题