回答
您可能想看看Python NLTK(自然语言工具包):它是专门为这种类型设计的。
还有一个great book你可以但让你开始。
我建议你有a look at R。它有大量的文本挖掘软件包:have a look at the Natural Language Processing view。尤其要看tm
包。下面是一些相关链接:
- 纸关于包在期刊统计计算的:http://www.jstatsoft.org/v25/i05/paper。本文包括R-devel的 邮件列表的分析的一个很好的例子,从2006年
- 包主页(https://stat.ethz.ch/pipermail/r-devel/)新闻组贴子:http://cran.r-project.org/web/packages/tm/index.html
- 看介绍晕影:http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
又如对此有用的包是Gary King's readme package。
试试门,它具有图形用户界面,当然你可以使用Java API来更多的权力: http://gate.ac.uk/family/developer.html
您还可以使用Weka的处理文本,做文本挖掘,看看这些有用的讲座: http://sentimentmining.net/weka/
一些weka讲座似乎破坏了下载链接。 – NilsHaldenwang
stanford core-nlp适用于英文文本,并且具有诸如命名实体识别之类的内容。看看:http://nlp.stanford.edu/software/corenlp.shtml
Ehsan已经推荐的GATE也很好,但如果您需要编写自己的组件,它可能会有点复杂。对于大型的东西,它是伟大的,但。
UIMA与GATE类似,但不易于使用,因为它没有像GATE那样的广泛GUI。 (http://uima.apache.org)
- 1. 带r库的文本挖掘stringdist
- 2. 文本挖掘库或算法来检索所需的文本?
- 3. 文本挖掘/分析用户命令/问题算法或库
- 4. hadoop的数据挖掘库
- 5. DMQL数据挖掘查询语言
- 6. 中文文本挖掘
- 7. [R文本挖掘问题
- 8. stemDocument [R文本挖掘
- 9. 文本挖掘:在Python
- 10. 文本挖掘中的R
- 11. [R文本挖掘包:允许把新的文件到现有的语料库
- 12. 新闻文章和标题的免费文本挖掘语料库
- 13. 挖掘维基百科映射文本挖掘关系
- 14. 的Oracle SQL导航数据挖掘文本挖掘
- 15. 文本挖掘单个文本文档
- 16. 将IRC档案整理成用于文本挖掘的语料库
- 17. 自然语言/文字挖掘和Reddit /社会新闻网站
- 18. 数据挖掘库和许可限制
- 19. 用于MPI的数据挖掘库
- 20. 轻松挖掘数据库的工具
- 21. R数据挖掘语法
- 22. 用于文本处理(文本挖掘,信息检索,自然语言处理)的Python或Java
- 23. 如何在R语言的tm(文本挖掘)包中使用stemDocument?
- 24. 多语言文本到语音库?
- 25. R采用量化的文本挖掘
- 26. 如何文本挖掘特定数据
- 27. BeautifulSoup文本挖掘 - 变量字符串
- 28. 使用Python进行文本挖掘
- 29. 如何数据挖掘文本?
- 30. 文本挖掘和机器学习
你想要挖掘什么?有时候,解决方案比定义问题更困难。 –