2009-06-28 19 views
18

我刚刚阅读了关于Wired团队BellKor的实用混沌团队是怎样的winning the Netflix Challenge,我很好奇这种算法通常如何工作。我知道Bellkor团队的解决方案必须是现场创新的解决方案。但该领域通常如何运作?它只是一个真正详细的数据库,马尔可夫链一次又一次地运行或者是什么?自动推荐算法通常如何工作?

回答

11

但如何外地平时工作?

这是一个数据挖掘技术。数据挖掘被用作商业智能(数据仓库等)的一部分,试图找到大量数据中的关系和信息。它是计算机科学的一个领域,通常也涉及机器学习,例如模式识别。自动推荐通过Association Mining获得。作为建议显示高支持度的关联。 k最近邻算法只是机器学习/数据挖掘人员使用的众多算法之一。

如果你有兴趣在基础理论,我由伊恩·H·威滕建议Data Mining: Practical Machine Learning Tools and Techniques

对于Java,有一个很棒的机器学习软件包,WEKA能够做到association mining。 Ian Witten也是WEKA的作者之一。

5

大多数Netflix竞赛参赛者在Singular Value Decomposition上使用变体。该算法通过采用大矩阵并将其简化为近似2×2矩阵来操作。这个2x2矩阵然后可以绘制在二维空间上,其中彼此靠近的点在原始矩阵中彼此共享亲和力。

因此,就Netflix而言,您可以创建一个矩阵,其中电影是列,用户是行,其中任何值[i,j]是i用户给予电影j的评级。这是一个非常大的矩阵,然后可以应用SVD生成一个二维矩阵,用作较大矩阵的近似值。当在这架飞机上绘制时彼此接近的用户共享相似的评级,所以如果一个用户没有看到另一个用户在这架飞机上看过的人接近它的电影,那么这可能是对新用户的推荐。

获胜溶液设计被叫SVD ++直SVD算法的变型和混合,它们一起与其他边缘情况,试图产生一种算法,将超出的领奖所需的10%的改进。