text-analysis

1热度

1回答

我有一组文章，我想从每篇文章中提取概念。这个概念可能是独立的，或者联系在一起形成一个新的概念。为此，最近我遇到了各种付费API，例如DEMAND（http://www.autonomy.com/technology/idol-functions/conceptual-search），数据协调（http://www.dataharmony.com/services-view/mai-componen

1热度

1回答

用于文本分析以旋转文本的规则

我在考虑文本轮换应用程序的工作原理。就像一些应用程序需要文本并给出相似的含义文本（通过使用同义词，被动语句等）来改变主题。首先看它我认为只要改变与他们的同义词的话会做到这一点。但后来我意识到这是不够的。有人可以帮我定义文本分析规则的文本spining吗？将名词，形容词从文本中删去，并用它的同义词替换它。对类似教程的任何引用也将有所帮助。

-1热度

2回答

如何从.txt文件制作.cat文件

我在将.txt文件转换为.cat文件时遇到问题。这是一个字典（LIWC2007意大利语），它将单词分为几类;我必须在WordStat 6.1上加载它。当我尝试加载字典时，WordStat不会看到任何non-.cat文件。如何转换文件？在网上看看没有帮助。提前感谢您的时间。

0热度

1回答

在java代码中嵌入数据文件

我有一个字典文件用于单词匹配，java代码将在线提交并执行（对于在线编码竞争）我将如何能够使用字典数据文件，而我的程序在线执行。是否可以作为压缩字节流嵌入到源代码中？请建议

0热度

1回答

文本分类：除了用于识别具有请求的句子的单词包之外，还有什么好的特征

我试图提取如果句子是问题请求还是要求采取多标签分类的动作等（监督）什么是好的设置功能，我目前正在使用一袋词（与trigram模型），模态动词/问题词等，它不产生很好的结果？例如：你今天能得到这个吗？我需要下列项目。

1热度

1回答

如何从非结构化文本块中获取热门标签/关键字？

我在NoSQL数据库中存储了大量文本 - 比如大约100-200字 - 需要在所有这些块中显示趋势关键字/标签。我知道像炼金术这样的文本分析API，它从单个文本块中提取实体，但我想要所有块中的顶级关键字/标签。我是否应该针对每个文本块存储关键字，然后对顶级关键字进行详尽计数？在这种情况下，每个关键字可能会略有不同，并可能导致类似关键字的碎片化。

1热度

1回答

在MALLET中截断主题模型的标记

我想截断语料库中的所有标记，使其最大长度为5个字符。有没有办法在MALLET中设置--token-regex导入选项来实现这一点？我目前使用导入文件的代码是这样的： mallet-2.0.7/bin/mallet import-dir --input mallet-2.0.7/data/journals/ --output mallet-2.0.7/tmp/topic-input-journals

2热度

1回答

转换一个术语的文档矩阵到节点/边列表中的R

我有个术语的文档稀疏矩阵由R中iusing的TM包我可以转换到使用此代码段的一个术语，术语基质： library("tm") data(crude) couple.of.words <- c("embargo", "energy", "oil", "environment", "estimate") tdm <- TermDocumentMatrix(crude, control = li

1热度

4回答

Python的单词计数

的递减顺序我使用这个代码来算词汇出现在文本文件的频率： #!/usr/bin/python file=open("out1.txt","r+") wordcount={} for word in file.read().split(): if word not in wordcount: wordcount[word] = 1 else: word

0热度

1回答

算法相似性使用维基百科

我期待来计算这两个词字1之间的距离的话 - ManchesterUnited字2 - 瑞恩·吉格斯我觉得利用维基百科将是一个非常不错的选择。我会尝试并确定两个词从一个共同的类别或主题的距离。我可以使用哪些算法来确定常见主题？我的下一个问题是，我将如何获得共同主题下的层次结构，以便我可以计算词的距离？我还想知道是否有任何其他方式来计算两个单词之间的距离。如果实施起来既简单又高效，这将是一件