text-analysis

    1热度

    1回答

    我有一组文章,我想从每篇文章中提取概念。这个概念可能是独立的,或者联系在一起形成一个新的概念。为此,最近我遇到了各种付费API,例如DEMAND(http://www.autonomy.com/technology/idol-functions/conceptual-search),数据协调(http://www.dataharmony.com/services-view/mai-componen

    1热度

    1回答

    我在考虑文本轮换应用程序的工作原理。就像一些应用程序需要文本并给出相似的含义文本(通过使用同义词,被动语句等)来改变主题。 首先看它我认为只要改变与他们的同义词的话会做到这一点。但后来我意识到这是不够的。 有人可以帮我定义文本分析规则的文本spining吗? 将名词,形容词从文本中删去,并用它的同义词替换它。 对类似教程的任何引用也将有所帮助。

    -1热度

    2回答

    我在将.txt文件转换为.cat文件时遇到问题。 这是一个字典(LIWC2007意大利语),它将单词分为几类;我必须在WordStat 6.1上加载它。当我尝试加载字典时,WordStat不会看到任何non-.cat文件。 如何转换文件?在网上看看没有帮助。 提前感谢您的时间。

    0热度

    1回答

    我有一个字典文件用于单词匹配,java代码将在线提交并执行(对于在线编码竞争) 我将如何能够使用字典数据文件,而我的程序在线执行。 是否可以作为压缩字节流嵌入到源代码中? 请建议

    0热度

    1回答

    我试图提取如果句子是问题请求还是要求采取多标签分类的动作等(监督)什么是好的设置功能,我目前正在使用一袋词(与trigram模型),模态动词/问题词等,它不产生很好的结果? 例如:你今天能得到这个吗?我需要下列项目。

    1热度

    1回答

    我在NoSQL数据库中存储了大量文本 - 比如大约100-200字 - 需要在所有这些块中显示趋势关键字/标签。 我知道像炼金术这样的文本分析API,它从单个文本块中提取实体,但我想要所有块中的顶级关键字/标签。 我是否应该针对每个文本块存储关键字,然后对顶级关键字进行详尽计数?在这种情况下,每个关键字可能会略有不同,并可能导致类似关键字的碎片化。

    1热度

    1回答

    我想截断语料库中的所有标记,使其最大长度为5个字符。有没有办法在MALLET中设置--token-regex导入选项来实现这一点?我目前使用导入文件的代码是这样的: mallet-2.0.7/bin/mallet import-dir --input mallet-2.0.7/data/journals/ --output mallet-2.0.7/tmp/topic-input-journals

    2热度

    1回答

    我有个术语的文档稀疏矩阵由R中iusing的TM包 我可以转换到使用此代码段的一个术语,术语基质: library("tm") data(crude) couple.of.words <- c("embargo", "energy", "oil", "environment", "estimate") tdm <- TermDocumentMatrix(crude, control = li

    1热度

    4回答

    的递减顺序我使用这个代码来算词汇出现在文本文件的频率: #!/usr/bin/python file=open("out1.txt","r+") wordcount={} for word in file.read().split(): if word not in wordcount: wordcount[word] = 1 else: word

    0热度

    1回答

    我期待来计算这两个词 字1之间的距离的话 - ManchesterUnited字2 - 瑞恩·吉格斯 我觉得利用维基百科将是一个非常不错的选择。 我会尝试并确定两个词从一个共同的类别或主题的距离。我可以使用哪些算法来确定常见主题? 我的下一个问题是,我将如何获得共同主题下的层次结构,以便我可以计算词的距离? 我还想知道是否有任何其他方式来计算两个单词之间的距离。如果实施起来既简单又高效,这将是一件