2010-01-20 44 views
0

我有一堆从我自己的论坛收获的数据,并且想要做一些文本挖掘或者使用一些语言库来提取有用的信息。文本挖掘库或语言库?

任何文本挖掘,任何语言的数据挖掘库都会做。

谢谢。

+1

你想要挖掘什么?有时候,解决方案比定义问题更困难。 –

回答

0

Mallet是一个专为文本挖掘而设计的java库。一旦你预处理了文本数据,像Weka这样的通用数据挖掘工具也可以满足你的任务。

如果您有权访问SPSS或SAS,他们的产品应该更易于使用。

2

您可能想看看Python NLTK(自然语言工具包):它是专门为这种类型设计的。

还有一个great book你可以但让你开始。

4

我建议你有a look at R。它有大量的文本挖掘软件包:have a look at the Natural Language Processing view。尤其要看tm包。下面是一些相关链接:

又如对此有用的包是Gary King's readme package

0

stanford core-nlp适用于英文文本,并且具有诸如命名实体识别之类的内容。看看:http://nlp.stanford.edu/software/corenlp.shtml

Ehsan已经推荐的GATE也很好,但如果您需要编写自己的组件,它可能会有点复杂。对于大型的东西,它是伟大的,但。

UIMA与GATE类似,但不易于使用,因为它没有像GATE那样的广泛GUI。 (http://uima.apache.org