2013-05-30 74 views
1

我有一个航空公司旅行社的用户数据,从这个数据我想获得用户的某些实体的最偏爱的价值。我的数据集的格式为喜欢 -根据用户数据获取偏好

userId From  TO  Meal Carrier   Travel type 

MT001 London Abu Dhabi Non Veg Lufthansa   International 
MT001 Abu Dhabi Beijing Veg  Lufthansa   International 
MT001 New York Chicago Non Veg American Airlines Domestic 
MT002 New York Texas  Veg  American Airlines Domestic 

现在我想获得用户MT001的膳食,载列的优选值与该用户进行分类。我知道我们可以使用SQL来获取这些值,但使用mahout框架可以做到这一点吗?我不想实时得到结果,我正在考虑像预处理数据并将结果存储在可以立即获取结果的地方的批处理作业。

我知道mahout支持分类,并且我们可以使用诸如基于项目的推荐之类的东西来获得首选值。此外,我正计划转移到hadoop,那么在这种情况下选择mahout会有多好。

回答

1

我认为你在这里寻找的东西就像基于内容的推荐,Mahout支持基于内容的推荐,但我不确定它是否是实现它的最佳框架,你将不得不重写一个地狱很多的类根据你的程序工作。

找到了 - Extend Mahout for new dataset