2013-10-18 43 views
1

我有一个包含大约100m文档的Solr数据库。我想要发掘这些文件。使用Solr和Hadoop进行文本挖掘

我正在考虑在javacode中制作文本挖掘模块。然后在Hadoop集群上运行jar。 (模块的输出可以存储在solr中。)

我是Hadoop和Solr的新手。我想知道,这可能吗?和/或有没有更好的方法来文本挖掘文件?

关于这种情况的任何想法,真的会帮助我很多。

回答

0

您是否需要频繁访问文档?

如果您需要访问大文档,则可以使用SolrCloud。分片和复制结构可以处理高负载。

存储到Solr的json/xml很容易。

+0

是的,文件访问频繁。目前存储在Solr云中。这是因为它需要搜索所有文档。 但我还需要分析/文本挖掘这些文件。这是一个CPU密集型的事情。所以我正在考虑使用Hadoop集群。 – Nannie

0

检查Mahout库,然后再使用完全自定义的代码;它有一个Lucene驱动程序,并且在大多数情况下它与Hadoop集成在一起。 大多数情况下,您需要使用术语向量才能使用Mahout进行挖掘。一旦拥有它 - 这是一个相当无缝的设置。