使用robots.txt来阻止/？param = X

我已经创建了一个使用WordPress的网站，第一天它充满了虚拟内容，直到我上传了我的内容。谷歌索引如网页：使用robots.txt来阻止/？param = X

www.url.com/?cat=1

现在这些页面不存在，并提出删除请求，谷歌问我挡住他们的robots.txt

我应该使用：

User-Agent: * 
Disallow: /?cat=

或

User-Agent: * 
Disallow: /?cat=*

我的robots.txt文件看起来有些这样的事情：

User-agent: * 
Disallow: /cgi-bin 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-content 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /author 
Disallow: /?cat= 
Sitemap: http://url.com/sitemap.xml.gz

这看起来不错，或者它可以导致搜索引擎的任何问题？我应该使用Allow：/以及所有的Disallow：？

来源

2011-01-21 Meredith

除非您想要允许某些类别，否则无需在此处使用“允许”。例如，您不允许以`/？cat =`开头的所有内容。但是你可能想要允许一个特定的类别，如`Allow：/？cat = something`。 – 2011-01-21 18:41:28

我会用这实际上

去往框访问该包括一个问号的所有URL（？）（更多具体而言，与您的域名开头的任何URL，然后任何字符串，然后是问号，而后又接任意字符串）：

User-agent: Googlebot 
Disallow: /*?

所以我实际上去：

User-agent: Googlebot 
Disallow: /*?cat=

Resourse (Under patttern matching)

来源

2011-01-21 18:25:03 Trufa

在一般情况下，你应该不使用robots.txt指令来处理移除的内容。如果搜索引擎无法抓取它，则无法判断它是否已被删除，并可能继续对这些网址进行索引（或甚至开始索引）。正确的解决方案是确保您的站点为这些URL返回404（或410）HTTP结果代码，然后随着时间的推移他们将自动退出。

如果您想使用Google的紧急URL removal tools，则必须单独提交这些网址，因此您不会通过使用robots.txt disallow获取任何内容。

来源

2011-01-22 14:13:53

如果搜索引擎无法抓取它，它无法分辨它是否已被删除，并可能继续索引（甚至开始索引）这些URL。

来源

2012-01-19 03:04:02 KAI

使用robots.txt来阻止/？param = X

回答

相关问题