text-analysis

    13热度

    2回答

    我需要您的帮助来确定分析针对“积极”与“消极”的行业特定句子(即电影评论)的最佳方法。我以前见过类似OpenNLP的图书馆,但它太低级了 - 它只给了我基本的句子构成;我需要的是一个更高级别的结构: - 希望与wordlists - 希望可以在我的数据集上训练 谢谢!

    16热度

    1回答

    我正在研究一个项目,此时我需要挑出大量文本中最常见的短语。例如说我们有三句话像下面这样: 狗跳下过的女人。 狗跳进入车内。 狗跳上楼。 从上面的例子我想提取“狗跳下”,因为它是在文本中最常见的词组。起初我想,“哦,让使用有向图[反复节点]”: directed graph http://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png 编

    3热度

    5回答

    有没有人知道一个开源的\免费的图书馆,术语聚类? 谢谢, 参见Yaniv

    0热度

    2回答

    我有近150k土耳其文章。我将使用文章进行自然语言处理研究。 我想在处理文章后为每篇文章存储它们的文字和频率。 我现在将它们存储在RDBS中。 我有3个表: 文章 - >的article_id,文字 词 - > word_id,类型,字 字 - 文章 - >编号,word_id,ARTICLE_ID,频率(指数word_id,指数article_id的) 我的文章 一个字的每articl频率查询

    1热度

    2回答

    我最近使用Adobe Acrobat Pro的OCR功能来处理日文汉字字典。输出的总体质量总体上比我希望的要好一些,但是英文部分的文字界限往往已经消失。例如,这里是从我的文件中的一行: softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself 我可以去走一