2011-10-16 31 views
4

我正在寻找能够呈现单个网页重要性的算法/技巧。把PageRank放在一边,有没有其他的方法可以根据内容,结构和超链接进行评分?评级网站算法/技术(PageRank放在一边)

我不仅在讨论从www.foo.com到www.bar.com的连接,而且还从www.foo.com/bar到www.foo.com/baz等等(适应这些需求的PageRank)

如何“定义”的重要性的事实旁边:我认为重要的在这方面为“重要这是怎么侧到用户,以及它是如何重要该网站的其余部分“。
例如圣诞节抽奖在首页上公布,只有通往本网站的单个链接对用户和网站都更为重要。从每个网站链接(因为它主要在页脚的某个地方)的印记并不重要,尽管它有很多链接。对于网站来说,版本说明并不重要,因为它不会为网页的版权(=提供信息,销售产品,一般服务等)提供任何实际价值。

回答

1

还有SALSA这比HITS更稳定[因此它受垃圾邮件影响较小]。

既然你也有兴趣的页面背景下,您可能希望对Haveliwala的作品一看就topic sensitive page rank

+0

你贴的漂亮的文件,我正在看着它们。听起来非常有趣,谢谢 – DrColossos

1

另一个着名的算法是Hubs and Authorities (HITS) 。基本上,您可以将您的页面分类为Hub(具有大量出站链接的页面)和权威(具有大量入站链接的页面)。

但是你应该真正定义你的重要性。真正重要的是什么意思? PageRank对入站链接进行了定义。那就是PageRank的定义。

如果您将重要的定义为有照片,因为您喜欢摄影。然后你可以拿出重要的度量,如页面中的照片数量。另一个标准可能是入站链接从摄影网站数量(如flickr.com500px ...)

使用您的重要定义,你可以使用`1-(分入站链接的数量按网站上的页数)。这给你一个介于0和1之间的数字。0意味着不重要,1意味着重要。

使用这个指标的印记,它出现在网站的所有页面,有0你的圣诞销售页面,该页面只有一个链接到它的重要性,具有重要意义几乎1

+0

好点,我加的什么,我认为“重要”的说明。也会研究HITS。感谢您的意见。 – DrColossos

+0

我为您的“重要”描述添加了一个度量函数。不太确定这是你想要的。 – Pierre