2011-09-21 39 views
4

我正在寻找一种算法,它可以做某种页面排名,但随着页面变老,页面的价值会变小。到期页排名算法

我见过的所有算法都做了相反的操作(给旧的域名更多的价值)。

帮助找到这样的算法将非常感谢。

编辑: 看看我最初的问题,我想我有点不清楚自己在问什么,问题比我原先想象的更复杂。 基本上我想要的是某种排名算法,如果网站B在网站B发布帖子后立即链接到网站B,则网站B的页面会获得额外的网页排名(也许分数是更好的词),但是如果网站A已经在帖子发布后很长一段时间与B站点链接,这对网页排名几乎没有影响。

希望这是有道理的。对最初的问题抱歉是错误的。

+0

最好呈现算法,你尝试它,但你不能从最早的日期改变它到最新的日期。 –

+0

@SaeedAmiri:OP明确提及他使用的算法:pagerank。这个问题很明显,熟悉这种算法的人都很熟悉。 – amit

+0

@amit,我知道pagerank但它有一些变化,OP没有提到他为什么不能使用它(有一个小的变化)来使用最新的帖子。 –

回答

5

您可以使用有偏序的页面排名,如Haveliwala在此article中所述。

这个想法很简单,而不是使用一个普通的随机组件:[1/n,1/n,....,1/n],使用一个有偏向的随机组件,当你随机行走时,而不是以概率1/n进入每个页面,概率f(doc),其中f(DOC)是较新的页面较高,Sigma(f(doc)) = 1 [集合中的所有文档,让您的随机成分会[f(doc1),f(doc2),...,f(docn)]

请注意,每个文件必须是f(doc)>0,否则衔接不保证[Perron-Frobenius定理不适用]。


另一种可能性是计算定期网页排名,和相乘它与一个不同的功能g:Collection->R给出一个数值,以各页面,并且页面是较新的,得分越高为此文档。

编辑:
作为响应原来的问题的编辑:
另一种可能性是生成用于所述纸幅的曲线图的情况下,添加额外的信息w:E->[0,1],意思是:添加的权重函数对于每个边缘,dentoing多么重要是,如果链接是在原始编辑后不久创建的,则w(e)将接近1,并且如果它晚得多,分数将更接近于0.

创建矩阵时,计算pagerank on ,把Matrix[v1][v2] <- w((v1,v2)),而不是一个简单的二进制值表示边缘存在于图表中。
一旦你有这个矩阵,一般计算PageRank。

+0

对不起,我现在正在阅读论文并试图理解它,这与新编辑的问题仍然相关吗? – user956400

+0

@ user956400:看看我的编辑:我认为这可能更适合您编辑的问题。 – amit

+0

这听起来更容易没有真正意识到页面排名可用于非二进制数据。 – user956400