为什么LogLikelihoodSimilarity函数为0和1的数据集返回大于1.0的值？

我有一个表示为1.0的偏好的大数据集，我使用Tanimoto相似函数和通用布尔用户和项偏好推荐器。推荐值通常介于0和1.0之间。为什么LogLikelihoodSimilarity函数为0和1的数据集返回大于1.0的值？

许多来源（如Mahout in Action book）和this prior SO thread都推荐Tanimoto上的LogLikelihoodSimilarity指标用于布尔数据集。当我切换到LogLikelihood相似性度量标准时，它会在更高的范围内生成一些分数，例如11。我不得不回到Tanimoto以获得更多的感官评分。您能否提出任何潜在的修复方案，或者我误解了推荐项目分数的返回值？

来源

2012-04-16 infomofo

在没有评级的情况下，您观察的值是而不是预测的评级。毕竟，它们都是1.0，所以不能用于排名。结果实际上是一个相似之处，这就是为什么它可以是任意大的。它不应该在[0,1]或类似的东西中。

来源

2012-04-16 18:01:59

因此，使用LogLikelihoodSimilarity，我们将如何评分预测。是否可以设置表示关联或缺少阈值的阈值？ – kitwalker 2012-04-22 02:31:06

您仍然按价值排列预测。不，没有魔法门槛;这取决于你的数据和用例。 – 2013-04-02 08:10:58

为什么LogLikelihoodSimilarity函数为0和1的数据集返回大于1.0的值？

回答

相关问题