text-analysis

    5热度

    1回答

    我正在Python中进行一些文本分析工作。不幸的是,我需要切换到R才能使用特定的包(不幸的是,该包不能轻松地在Python中复制)。 目前的文本被解析成二元数,减少到约11000二元语法词汇,然后作为字典存储: {id1: {'bigrams':[(bigram1, count), (bigram2, count), ...]}, id2: {'bigrams': ...} 我需要进入一个d

    1热度

    1回答

    斯坦福解析器的因式分解和PCFG模型之间有什么区别? (就理论工作和数学角度而言)

    2热度

    3回答

    我想列出如下数据: 输入 Big Fat Apple 3 Small Fat Apple 2 Little Small Pear 1 预期输出: Big = 3 Fat = 3+2=5 Apple = 3+2=5 Small = 2+1=3 Little = 1 Pear = 1 我试图让文档词矩阵对待这个为主体,但我无法找到一种方式来实现“大胖子苹果”实际上出现在语

    0热度

    1回答

    findAssocs()不起作用,如下所示。 “清醒”和“做梦”在书中经常出现。 > docs <- tm_map(docs, stemDocument) > dtm <- DocumentTermMatrix(docs) > freq <- colSums(as.matrix(dtm)) > ord <- order(freq) > freq[tail(ord)] one experi

    4热度

    2回答

    我正在使用槌子主题建模示例代码,虽然它运行良好,我想知道这个声明的参数实际上是什么意思? instances.addThruPipe(new CsvIterator(new FileReader(dataFile), "(\\w+)\\s+(\\w+)\\s+(.*)", 3, 2, 1) // (data, target, name) fi

    0热度

    1回答

    我正在尝试使用SVM分类器分析tweets。我能够使用unigrams作为功能成功执行分类。我正在使用SciKit的libSVM实现,它可以使用One-Vs-All方法执行多类分类。为了生成一个特征向量,我使用了一张地图。如果该单词存在于推文中,则将其映射为1,否则为0.在特征向量中,如果地图(单词)的值不是停止鸣叫,则附加标签0,否则为1。在这里: def getSVMFeatureVector

    0热度

    1回答

    我有一个数据集(Facebook的帖子)(通过netvizz),我用R中的quanteda软件包。这是我的R代码。 # Load the relevant dictionary (relevant for analysis) liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC") # Read Fil

    0热度

    1回答

    备注:这个问题涵盖了为什么这个脚本太慢了。但是,如果你更喜欢改善某种东西的人,你可以看看my post on CodeReview which aims to improve the performance。 我正在研究一个打开纯文本文件(.lst)的项目。 的文件名(fileName)的名字很重要,因为我会从中提取node(例如abessijn)和component(如WR-P-E-A)转换成数

    0热度

    2回答

    我正在构建一个程序来执行一些文本分析。 我在猜测,将缩写词解开为原始单词会提高分析的准确性。 但我不知道实施它。我谷歌搜索了一点,但无法找到任何文章或论文讨论这一点。 (或者,也许我只是不知道正确的关键字进行搜索) 基本上我需要的是:给定一个单词W,找到一个单词的概率最高是从字典中的W的非缩写版本(列表未缩写的词)。或者,我希望算法与印尼语言兼容。 我的问题是有点类似这太问题:A string s

    1热度

    1回答

    我目前正在学习机器学习,因为我认为解决我的问题可能会有帮助。但是,我不确定我应该采用什么技术来解决我的问题。我提前道歉,因为可能对这个领域不够了解,甚至不会提出一个恰当的问题。 我想要的是提取针织花样的重要部分(实际花样,并非所有的介绍和类似的东西)。举例来说,我想喂this web page到我的程序,走出这样的事情: { title: "Boot Style Red and Whit