2011-12-14 63 views
0

我想为用户操作存储大量数据,例如喜欢,标签等(我有电子商务和文档管理计划)。易于设置的生产就绪的实时推荐引擎

随着数据点,我想支持的功能,如

  1. 建议
  2. “取类似于X,Y更多的东西”集群“谁爱X爱Y,Z的用户”。

通过生产就绪,实时性;我的意思是我可以输入数据点并同时进行查询,服务器将负责回答查询并自行更新分数。


我搜索周围的interwebs和拿出的解决方案之一:

  1. 数据挖掘库,大多是学术为导向,旨在为大批量操作,不重实时查询
  2. Hadoop/Mahout,它是生产就绪,并支持实时更新和查询,但有一个陡峭的学习曲线和难以管理。

回答

2

对于推荐人,Mahout有一个不使用Hadoop的非分布式推荐器实现。实际上,这是唯一实时的部分;基于Hadoop的部分不是。

我觉得有一点学习曲线,请参阅herehere,以获得相当完整的文章。

Mahout in Action第2-5章涵盖了这一点。

0

请理解,对于有用的建议,必须仔细微调这种系统的各种参数。许多系统具备的开箱即用功能(Oracle数据挖掘,Microsoft数据挖掘扩展等)仅提供了核心功能。

所以最后,我想你不会绕过“陡峭的学习曲线”。这就是为什么你需要数据挖掘专家。如果有一个点击式解决方案,它已经在各地都集成了。

示例“类似物品”。亚马逊曾经推荐我购买两款产品:Debian Linux Administrators Handbook和Debian Linux Admininstrators Handbook WITH CD。

我希望你得到这个例子的关键点:对于一个简单的算法,这两本书出现“相似”,因此是一个明智的组合。对于人来说,购买同一本书两次毫无意义。你需要教导这样的规则任何推荐系统,因为他们不能从数据中平凡地学习。总会有好的结果和无用的结果,并且您需要仔细调整和参数化系统。