2012-04-16 12 views
3

我有一个表示为1.0的偏好的大数据集,我使用Tanimoto相似函数和通用布尔用户和项偏好推荐器。推荐值通常介于0和1.0之间。为什么LogLikelihoodSimilarity函数为0和1的数据集返回大于1.0的值?

许多来源(如Mahout in Action book)和this prior SO thread都推荐Tanimoto上的LogLikelihoodSimilarity指标用于布尔数据集。当我切换到LogLikelihood相似性度量标准时,它会在更高的范围内生成一些分数,例如11。我不得不回到Tanimoto以获得更多的感官评分。您能否提出任何潜在的修复方案,或者我误解了推荐项目分数的返回值?

回答

2

在没有评级的情况下,您观察的值是而不是预测的评级。毕竟,它们都是1.0,所以不能用于排名。结果实际上是一个相似之处,这就是为什么它可以是任意大的。它不应该在[0,1]或类似的东西中。

+1

因此,使用LogLikelihoodSimilarity,我们将如何评分预测。是否可以设置表示关联或缺少阈值的阈值? – kitwalker 2012-04-22 02:31:06

+0

您仍然按价值排列预测。不,没有魔法门槛;这取决于你的数据和用例。 – 2013-04-02 08:10:58

相关问题