quanteda

    -1热度

    2回答

    我正在使用quanteda来创建文本语料库并尝试附加元数据,但我不断收到错误。我之前在另一个数据集上使用过这个代码,但由于某种原因,它不适用于我当前的数据集。该代码是: dfm.ineq1 <- corpus(df.ineq$speech, docnames=df.ineq$speechID, docvars=select(party)) 我得到的错误是

    1热度

    1回答

    快速的问题: 将R文本分析软件包Quanteda - findSequence给出了下面的输出,我不能对某些列的找到文档: seqs <- findSequences(tokens, types_upper, count_min=2) head(seqs, 3) sequence len z p mue 3 first time 2 -0.4159751

    0热度

    1回答

    我试图从Quanteda dfm中提取已识别的字典单词,但一直无法找到解决方案。 有人有这方面的解决方案吗? 样品输入: dict <- dictionary(list(season = c("spring", "summer", "fall", "winter"))) dfm <- dfm("summer is great", dictionary = dict) 输出: > dfm D

    1热度

    1回答

    我试图从quanteda NB预测情绪分析与验证码: library(quanteda) X_train <-c("I love this sandwich.", "This is an amazing place!", "I feel very good about these beers.", "This is my best work.",

    2热度

    1回答

    我正在尝试从字符串创建dfm的单词。当dfm无法选择时,我面临的问题是可以为诸如“/”“ - ”“之类的标点创建功能。”要么 '。 require(quanteda) dict = c('a','b','c','d','e','f','/',".",'-',"'") dict <- quanteda::dictionary(sapply(dict, list)) x<-c("cab","b

    3热度

    1回答

    Quanteda软件包提供稀疏文档特征矩阵DFM,其方法包含removeFeatures。我试过dfm(x, removeFeatures="\\b[a-z]{1-3}\\b")删除过短的单词以及dfm(x, keptFeatures="\\b[a-z]{4-99}\\b")以保留足够长的单词但不起作用,基本上做同样的事情,即删除太短的单词。 如何从Quanteda DFM对象中删除正则表达式匹配

    1热度

    1回答

    的removeCommonTerms功能发现here为TM封装,使得 removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), is.numeric(pct), pct > 0, pct < 1) m

    0热度

    1回答

    我有这样的循环,试图实施该解决方案here,用假瓦尔这样 aaa <- DFM %*% t(DFM) #DFM is Quanteda dfm-sparse-matrix for(i in 1:nrow(aaa)) aaa[i,] <- aaa[i,][order(aaa[i,], decreasing = TRUE)] 但现在 for(i in 1:nrow(mmm)) mmm[i,] <

    1热度

    1回答

    我是文本分析的新手,目前正在尝试使用R中的#Quanteda包来满足我的需求。我想为一些特定的分配不同的数字权重并测试模型的准确性。我尝试了在其他线程中提到的方法,通过保留dfm类 Assigning weights to different features in R但是无法获得正确的输出。任何帮助,将不胜感激。 这里是我试过 ##install.packages("quanteda") re

    0热度

    1回答

    我正在使用R的quanteda软件包以及R和包的最新版本。我有一个数百万的文件集。 假设我有一个由quanteda生成的DFM,每个文档都有一个docvar的日期。在特定的日子里有成千上万的文件,但是我希望获得适用于这些文件的DFM(白天)(这样我每天就可以得到全部的文字)。我知道quanteda是使用data.table构建的,因此应该可以这样做,但是我在“Quanteda入门”或StackOv