2010-06-25 60 views
2

我正在编写一组函数来为网站生成网站地图。让我们假设这个网站是一个博客。有关网站地图文件及其内容的动态网站的问题

网站地图的定义是它列出了网站中可用的网页。对于一个动态的网站,这些页面会经常变化。

使用博客的例子,'网页'将成为博客文章(我猜),因为站点地图中的链接数量有限制(现在忽略网站地图索引),它意味着我无法继续添加最新博客帖子的列表,因为在将来的某个时间点,限制将被超过。

我在上面的段落中做了两个(非常基本的)假设。它们是:

假设1:

一个网站地图包含在一个网站页面的列表。对于像博客这样的动态网站,页面将成为博客文章。因此,我可以创建一个简单列出网站上的博客帖子的站点地图。 (这听起来像一个进到我)

假设2:

因为是在站点地图文件的链接数量的硬性限制,我可以强加一些arbitary极限N,并简单地生成定期文件,列出最新的N相关博客文章(在这个阶段,这是无法区分进料)

我的问题则是:

  • 是假设(即我的sitemap文件里面发生的事情理解)va盖/是否正确?
  • 我上面描述的,听起来非常像一个饲料,机器人可以不简单地使用饲料来索引一个网站(即必要的站点地图)?
  • 如果我已经生成了一个文件,其中有最新的变化,我没有看到在站点地图协议文件中添加点 - 有人可以解释这一点吗?

回答

1

假设1是正确的 - 网站地图应该确实是网站上的网页列表 - 在你的情况下,是的,这将是博客文章,以及任何其他页面,如联系页面,主页,关于页面等,你有。

是的,它有点像饲料,但饲料通常只有最新的物品,而网站地图应该包含一切。

Google's docs:

站点地图是特别有用的,如果:

  • 你的网站有动态内容。
  • 您的网站包含的网页在抓取过程中不容易被Googlebot发现 - 例如,具有丰富AJAX或图片的网页。
  • 您的网站是新的,并有几个链接。 (Googlebot通过跟踪从一个网页到另一个网页的链接来抓取网页,因此,如果您的网站链接不好,我们很难发现它。)
  • 您的网站有一个大型的内容页面存档,这些内容页面没有很好地链接到一起,或根本没有链接。

假设2是有点不正确 - 一个站点地图文件的限制为50,000个链接/ 10MB未压缩的,如果你觉得你有可能打的极限,然后通过创建一个站点地图索引文件开始,只有链接到一个站点地图,然后随时添加到它。

Google会接受一个RSS提要作为站点地图,但这些指标通常只包含最近的链接 - 网站地图的价值在于它应该涵盖网站上的所有内容,而不是只是最新的项目,这可能是最容易发现的。