2016-09-14 36 views

回答

0

你可以去星火MLlib算法。 Spark提供机器学习算法,该算法通过使用用户,产品和评分进行训练。在你的情况下,评级将是一件物品的购买次数(用户购买一件物品的次数)。

您可以按照此处显示的示例Collaborative filtering - ALS直接转到ALS算法。

+0

非常感谢。我会去尝试一下。 –

0

亨利马乌已基于所述概率数似然比(LLR)的用户和项目相似性,这已被证明相比于其他相似的度量,得到优异的性能,并且仅在名义上“相似性”,实际上是一种相关性测试。 Mahout中的LLR会为每个检测到的事件(数据集中的行)生成一个分数。该数据收集在spark-itemsimilarity作业的“指示器”矩阵中。您可以将其与搜索引擎一起用于创建推荐人或使用我们为PredictionIO创建的推荐人。

PredictionIO是一个带有数据库,工作流控制以及存储和计算引擎集成的机器学习服务器。请参阅Universal Recommender,它使用Spark上的Mahout,并且是一个功能齐全的端到端推荐器,可以查询基于用户的建议。

+0

谢谢。我用对数似然比。但它忽略了购买记录。我在考虑是否可以根据购买记录改进推荐系统。因为如果用户多次购买商品,则可能表示用户喜欢商品更多。 –

+0

您可能会认为,但我已经使用tanimoto进行了交叉验证实验,tanimoto是使用矢量长度(购买数量),余弦(不使用长度但使用购买次数)和LLR节拍的主要相似性指标这两方面都有很大的优势。这是来自大型在线零售商的真实世界ecom购买数据。这是因为购买数量往往不表示偏好,这表明产品像现在一样持久(除臭剂和红牛的罐头;-)。 – pferrel