2011-01-21 38 views
2

我已经创建了一个使用WordPress的网站,第一天它充满了虚拟内容,直到我上传了我的内容。谷歌索引如网页:使用robots.txt来阻止/?param = X

www.url.com/?cat=1

现在这些页面不存在,并提出删除请求,谷歌问我挡住他们的robots.txt

我应该使用:

User-Agent: * 
Disallow: /?cat= 

User-Agent: * 
Disallow: /?cat=* 

我的robots.txt文件看起来有些这样的事情:

User-agent: * 
Disallow: /cgi-bin 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-content 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /author 
Disallow: /?cat= 
Sitemap: http://url.com/sitemap.xml.gz 

这看起来不错,或者它可以导致搜索引擎的任何问题?我应该使用Allow:/以及所有的Disallow:?

+0

除非您想要允许某些类别,否则无需在此处使用“允许”。例如,您不允许以`/?cat =`开头的所有内容。但是你可能想要允许一个特定的类别,如`Allow:/?cat = something`。 – 2011-01-21 18:41:28

回答

2

我会用这实际上

去往框访问该 包括一个问号的所有URL(?)(更多 具体而言,与 您的域名开头的任何URL,然后任何 字符串,然后是问号,而后又接任意字符串 ):

User-agent: Googlebot 
Disallow: /*? 

所以我实际上去:

User-agent: Googlebot 
Disallow: /*?cat= 

Resourse (Under patttern matching)

0

在一般情况下,你应该使用robots.txt指令来处理移除的内容。如果搜索引擎无法抓取它,则无法判断它是否已被删除,并可能继续对这些网址进行索引(或甚至开始索引)。正确的解决方案是确保您的站点为这些URL返回404(或410)HTTP结果代码,然后随着时间的推移他们将自动退出。

如果您想使用Google的紧急URL removal tools,则必须单独提交这些网址,因此您不会通过使用robots.txt disallow获取任何内容。

0

如果搜索引擎无法抓取它,它无法分辨它是否已被删除,并可能继续索引(甚至开始索引)这些URL。

相关问题