2013-05-09 62 views
-1

我需要使用Map-Reduce概念对单个文档进行文本挖掘。关于文本挖掘的建议/帮助

我的一些朋友建议我使用Apache Lucene。

但是在浏览一些关于Apache Lucene的文档之后,我发现它仅在我们需要索引文档时才有用。

任何人都可以提出任何更好的方法吗?

谢谢你提前

+0

Apache Mahout是一个用于Hadoop的数据挖掘库 – 2013-05-11 17:19:09

回答

0

Lucene是一个文档索引和检索框架。当然,我们可以使用关键字搜索,文档相似性等索引数据。

如果您对TM有兴趣,可以看看OpenNLP和LingPipe。他们有100多个用于文本挖掘和自然语言处理的库。