text-analysis

13热度

2回答

我需要您的帮助来确定分析针对“积极”与“消极”的行业特定句子（即电影评论）的最佳方法。我以前见过类似OpenNLP的图书馆，但它太低级了 - 它只给了我基本的句子构成;我需要的是一个更高级别的结构： - 希望与wordlists - 希望可以在我的数据集上训练谢谢！

16热度

1回答

如何在大量文本中找到常见短语

我正在研究一个项目，此时我需要挑出大量文本中最常见的短语。例如说我们有三句话像下面这样：狗跳下过的女人。狗跳进入车内。狗跳上楼。从上面的例子我想提取“狗跳下”，因为它是在文本中最常见的词组。起初我想，“哦，让使用有向图[反复节点]”： directed graph http://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png 编

3热度

5回答

术语聚类库？

有没有人知道一个开源的\免费的图书馆，术语聚类？谢谢，参见Yaniv

0热度

2回答

很多文章的单词列表 - 文档 - 术语矩阵

我有近150k土耳其文章。我将使用文章进行自然语言处理研究。我想在处理文章后为每篇文章存储它们的文字和频率。我现在将它们存储在RDBS中。我有3个表：文章 - >的article_id，文字词 - > word_id，类型，字字 - 文章 - >编号，word_id，ARTICLE_ID，频率（指数word_id，指数article_id的）我的文章一个字的每articl频率查询

1热度

2回答

在可能的英文单词边界上分割字符串

我最近使用Adobe Acrobat Pro的OCR功能来处理日文汉字字典。输出的总体质量总体上比我希望的要好一些，但是英文部分的文字界限往往已经消失。例如，这里是从我的文件中的一行： softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself 我可以去走一