2011-07-25 35 views
14

我正在处理一个大型文本分类项目,并且我们在HBase中存储了我们的文本数据(简单消息)。HBase&Mahout - 使用HBase作为Mahout的数据存储/源代码 - 分类

我们有两个问题,首先我们想用HBase作为Mahout分类器的来源,即Bayers和Random Forests。其次,我们希望能够存储在HBase中生成的模型,而不是使用内存中的方法(InMemoryBayesDatastore),但是随着我们的集合增长,我们遇到了内存利用问题,并且想要测试HBase为一个可行的选择。

在Mahout中使用HBase似乎并没有多少内容可以使用,如果可以将它用作潜在的数据源。我正在使用Mahout 0.6核心API,它具有InMemory数据存储。

做了一些挖我相信,有(是)一个HBase的拜耳数据存储组件 - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore在这里看到年长的JavaDoc:http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

然而,看着它看起来像这样功能的最新文档已经消失了..? https://builds.apache.org/job/Mahout-Quality/javadoc/

我想知道是否仍有可能使用HBase作为Bayers和RandomForests的数据源,并且在这里有任何以前的用例吗?

谢谢!

+0

您可能有更好的机会通过将其发送到邮件列表来获得此答案 – Jeffrey04

回答

3

这不是直接可能的,没有。你可以重新实现这个旧的实现,并将其清除,并可能使其工作没有太大麻烦。它确实被移除以减少和集中项目。

您当然也可以查看以某种形式导出数据并将其添加到直接支持的表示或存储中。

一般来说,您可以使用Mahout的HBase,因为Mahout使用Hadoop(主要),而Hadoop可以使用HBase。这不是这里的情况。这里有一个更直接的整合点,这已被弃用。