使用Solr和Hadoop进行文本挖掘

我有一个包含大约100m文档的Solr数据库。我想要发掘这些文件。使用Solr和Hadoop进行文本挖掘

我正在考虑在javacode中制作文本挖掘模块。然后在Hadoop集群上运行jar。（模块的输出可以存储在solr中。）

我是Hadoop和Solr的新手。我想知道，这可能吗？和/或有没有更好的方法来文本挖掘文件？

关于这种情况的任何想法，真的会帮助我很多。

2013-10-18 Nannie

您是否需要频繁访问文档？

如果您需要访问大文档，则可以使用SolrCloud。分片和复制结构可以处理高负载。

存储到Solr的json/xml很容易。

2013-10-18 08:49:05

是的，文件访问频繁。目前存储在Solr云中。这是因为它需要搜索所有文档。但我还需要分析/文本挖掘这些文件。这是一个CPU密集型的事情。所以我正在考虑使用Hadoop集群。 – Nannie

检查Mahout库，然后再使用完全自定义的代码;它有一个Lucene驱动程序，并且在大多数情况下它与Hadoop集成在一起。大多数情况下，您需要使用术语向量才能使用Mahout进行挖掘。一旦拥有它 - 这是一个相当无缝的设置。

2013-10-19 17:49:01 lexk

回答