2009-08-04 48 views

回答

4

关于Google的抓取政策有很多讨论。您可以做的最好的检查您的日志,并确定他们的日程安排为您的网站。

至于缓存中的多个条目,Google无法知道它们不是相同的页面;他们有不同的网址和可能不同的数据。如果您想要使用特定页面,请尝试使用<link rel="canonical" href="(standard URL)">

0

可以增加在它爬行的速度,通过调整:

站点配置>设置>设置自定义抓取速度

1

多久页面被重新抓取取决于它有多高的排名是,以及您在网站地图中建议的更新时间间隔。还可能考虑其他一些因素,例如页面的内容以及链接到该网站的哪种类型的网站。

高速缓存中的两个页面并不完全相同,其中一页是第二页,另一页是第三页。由于它们具有不同的URL和不同的内容,因此它们是单独的页面。

如果您确实希望网页被搜索引擎统计为相同,您可以使用link标记与rel="canonical"指向该线索的第一页。

0

这取决于网站上的内容类型,也可能取决于其PageRank。提供很少更新信息的静态页面可能每隔一个月左右访问一次,每天有很多帖子的流行博客可能每天都会被抓取几次。 (虽然在博客的情况下,博客软件通常会ping通搜索引擎,并且按需爬取)

看起来这些是中等流量的网站上的论坛帖子,所以它应该被抓取每周几次。即使我自己的网站目前Alexa上的排名不到800万,每周也会每隔一周使用robots.txt请求抓取。

具有类似内容的页面应该自动分组到一起,但如果不是,请尝试其他答复者提供的rel =“canonical”提示。

@Chris:不,该设置不会改变您的网站被抓取的频率,只有Google在抓取过程中请求页面的速度。这是一个误导性的设置,许多人犯了这个错误,即使帮助页面清楚地表明了这一点。

1

@Chris:Site Configuration> Settings> Set Custom Crawl Rate。此设置仅确定您的网站可以抓取的速度有多快,但不会设置抓取频率。为了让您的网站获得更多的抓取,请尝试将您网站的某些链接发布到其他网站。

+0

欢迎来到堆栈溢出:)请注意,没有必要在您的答案中包含您的网站地址,因为任何有兴趣的人都可以在[个人资料页面]上找到它(http://stackoverflow.com/users/715754/vaibhav)。 – sarnold 2011-04-20 00:21:10