2013-07-07 65 views
5

是否可以配置Mahout以在通过Hadoop执行Recommender作业时从Cassandra集群中检索输入数据?用Hadoop扩展Cassandra和Mahout

我发现了一些关于这个主题的资源 - 见http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html,但这里描述的迹象似乎并不奏效(mahout-0.6和mahout-0.7都尝试过)。对于istance itemIDIndexPath变量似乎并不存在于RecommenderJob类中,也不存在于其扩展的抽象类中。

回答

0

我试过对Cassandra运行Pig/Hive查询,发现它在加载时相当不稳定。 问题在于Cassandra的阅读路径效率相当低,特别是在Thrift上。我建议将数据转储到HDFS作为中间步骤并从那里处理它