text-analysis

5热度

1回答

我正在Python中进行一些文本分析工作。不幸的是，我需要切换到R才能使用特定的包（不幸的是，该包不能轻松地在Python中复制）。目前的文本被解析成二元数，减少到约11000二元语法词汇，然后作为字典存储： {id1: {'bigrams':[(bigram1, count), (bigram2, count), ...]}, id2: {'bigrams': ...} 我需要进入一个d

1热度

1回答

Stanford Parser - Factored model和PCFG

斯坦福解析器的因式分解和PCFG模型之间有什么区别？（就理论工作和数学角度而言）

2热度

3回答

如何在使用或不使用文档术语矩阵的情况下列出术语频率数据？

我想列出如下数据：输入 Big Fat Apple 3 Small Fat Apple 2 Little Small Pear 1 预期输出： Big = 3 Fat = 3+2=5 Apple = 3+2=5 Small = 2+1=3 Little = 1 Pear = 1 我试图让文档词矩阵对待这个为主体，但我无法找到一种方式来实现“大胖子苹果”实际上出现在语

0热度

1回答

r：为什么findAssocs（）不起作用？

findAssocs（）不起作用，如下所示。 “清醒”和“做梦”在书中经常出现。 > docs <- tm_map(docs, stemDocument) > dtm <- DocumentTermMatrix(docs) > freq <- colSums(as.matrix(dtm)) > ord <- order(freq) > freq[tail(ord)] one experi

4热度

2回答

在Mallet中，csvIterator的参数是什么意思？

我正在使用槌子主题建模示例代码，虽然它运行良好，我想知道这个声明的参数实际上是什么意思？ instances.addThruPipe(new CsvIterator(new FileReader(dataFile), "(\\w+)\\s+(\\w+)\\s+(.*)", 3, 2, 1) // (data, target, name) fi

0热度

1回答

在python中使用bigrams训练SVM分类器

我正在尝试使用SVM分类器分析tweets。我能够使用unigrams作为功能成功执行分类。我正在使用SciKit的libSVM实现，它可以使用One-Vs-All方法执行多类分类。为了生成一个特征向量，我使用了一张地图。如果该单词存在于推文中，则将其映射为1，否则为0.在特征向量中，如果地图（单词）的值不是停止鸣叫，则附加标签0，否则为1。在这里： def getSVMFeatureVector

0热度

1回答

R采用量化的文本挖掘

我有一个数据集（Facebook的帖子）（通过netvizz），我用R中的quanteda软件包。这是我的R代码。 # Load the relevant dictionary (relevant for analysis) liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC") # Read Fil

0热度

1回答

为什么我的Python脚本比它的R相当慢？

备注：这个问题涵盖了为什么这个脚本太慢了。但是，如果你更喜欢改善某种东西的人，你可以看看my post on CodeReview which aims to improve the performance。我正在研究一个打开纯文本文件（.lst）的项目。的文件名（fileName）的名字很重要，因为我会从中提取node（例如abessijn）和component（如WR-P-E-A）转换成数

0热度

2回答

提取缩略词为其原始字的算法

我正在构建一个程序来执行一些文本分析。我在猜测，将缩写词解开为原始单词会提高分析的准确性。但我不知道实施它。我谷歌搜索了一点，但无法找到任何文章或论文讨论这一点。（或者，也许我只是不知道正确的关键字进行搜索）基本上我需要的是：给定一个单词W，找到一个单词的概率最高是从字典中的W的非缩写版本（列表未缩写的词）。或者，我希望算法与印尼语言兼容。我的问题是有点类似这太问题：A string s

1热度

1回答

如何使用机器学习从文档中提取更大的文本块？

我目前正在学习机器学习，因为我认为解决我的问题可能会有帮助。但是，我不确定我应该采用什么技术来解决我的问题。我提前道歉，因为可能对这个领域不够了解，甚至不会提出一个恰当的问题。我想要的是提取针织花样的重要部分（实际花样，并非所有的介绍和类似的东西）。举例来说，我想喂this web page到我的程序，走出这样的事情： { title: "Boot Style Red and Whit