在现有的.Net MVC3站点上,我们实施了分页,其中URL类似于www.mysite.com/someterm/anotherterm/_p/89/10
,其中89是页码,10是每页结果数。如何修复GoogleBot和其他搜索引擎抓取工具不应抓取的索引页面?
不幸的是,rel="nofollow"
从大于3的页面链接中丢失,并且那些页面也丢失<meta name="robots" content="noindex,nofollow" />
。
问题是Google和其他一些搜索引擎现在已经对这些页面建立了索引,并且现在试图抓取所有这些页面,这很常见,因为我们发现它们对prod db服务器有很大的影响。我们不希望所有这些额外的成千上万的网页被抓取,只有前几个。
我将代码恢复为不包含分页的网站版本,以便我们的数据库服务器不会受到如此严重的打击。所以,虽然搜索引擎会为所有这些页面获得404错误,但我想知道这是否是最好的做法,因为过了一段时间我会再次介绍分页网站?
我可以添加以下web.config中都404的重定向到主页:
<httpErrors errorMode="Custom">
<remove statusCode="404"/>
<error statusCode="404" path="/" responseMode="ExecuteURL"/>
</httpErrors>
但我想,这样做将呈现为“重复的内容”为所有的这些页面带有分页URL参数。
这里最好的办法就是让这些404的持续一两周 - 然后重新引入分页网站?
另一个选择是释放分页网站,并添加一些代码以拒绝大于3页的爬网程序。建议?
是否有更快的方式将这些页面从索引中取出,以便它们不被抓取?
谢谢。
如果添加像'你的R /根/ anotherterm/*' obots.txt排除它们,爬行者应该停止对它们的攻击。 – 2012-08-04 01:00:13
网址结构为www.mysite.com/*/*/_p/ [当前页面]/[每页项目]。你能做这样的模式w/robots.txt吗? – ElHaix 2012-08-04 05:14:16