我为承载一个新闻网站,拥有超过7.5万页的在线媒体公司工作。我们目前使用Google Sitemap Generator(安装在我们的服务器上)为我们的网站构建动态XML站点地图。实际上,由于我们有大量内容,因此我们使用站点地图的站点地图。 (谷歌只允许最多50K网址。)
问题
的站点地图生成每12小时,并通过用户行为来驱动。也就是说,它解析服务器日志文件,并查看哪些页面被抓取得最多,并基于此创建站点地图。
由于我们无法保证将新网页添加到站点地图,因此最好是将站点地图提交为RSS源?这样,每当我们的编辑创建一个新的页面(或文章)时,它就会添加到Feed中并提交给Google。这引发了将重复内容推送到谷歌的问题,因为站点地图和RSS提要可能包含相同的URL。谷歌会惩罚我们的重复内容?其他内容丰富或媒体网站如何通知谷歌他们正在发布新内容?
据我所知,googlebots只索引它认为重要且相关的网页,但如果至少抓取了我们发布的任何新文章,那将会很棒。
任何帮助将不胜感激。