quanteda

-1热度

2回答

我正在使用quanteda来创建文本语料库并尝试附加元数据，但我不断收到错误。我之前在另一个数据集上使用过这个代码，但由于某种原因，它不适用于我当前的数据集。该代码是： dfm.ineq1 <- corpus(df.ineq$speech, docnames=df.ineq$speechID, docvars=select(party)) 我得到的错误是

1热度

1回答

定义 - R的包文本分析

快速的问题：将R文本分析软件包Quanteda - findSequence给出了下面的输出，我不能对某些列的找到文档： seqs <- findSequences(tokens, types_upper, count_min=2) head(seqs, 3) sequence len z p mue 3 first time 2 -0.4159751

0热度

1回答

Quanteda - 提取已识别的字典单词

我试图从Quanteda dfm中提取已识别的字典单词，但一直无法找到解决方案。有人有这方面的解决方案吗？样品输入： dict <- dictionary(list(season = c("spring", "summer", "fall", "winter"))) dfm <- dfm("summer is great", dictionary = dict) 输出： > dfm D

1热度

1回答

[R quanteda错误predict.textmodel_NB_fitted：没有实现

我试图从quanteda NB预测情绪分析与验证码： library(quanteda) X_train <-c("I love this sandwich.", "This is an amazing place!", "I feel very good about these beers.", "This is my best work.",

2热度

1回答

用字母创建dfm的单词

我正在尝试从字符串创建dfm的单词。当dfm无法选择时，我面临的问题是可以为诸如“/”“ - ”“之类的标点创建功能。”要么 '。 require(quanteda) dict = c('a','b','c','d','e','f','/',".",'-',"'") dict <- quanteda::dictionary(sapply(dict, list)) x<-c("cab","b

3热度

1回答

R：从Quanteda DFM中删除正则表达式，稀疏文档 - 特征矩阵，对象？

Quanteda软件包提供稀疏文档特征矩阵DFM，其方法包含removeFeatures。我试过dfm(x, removeFeatures="\\b[a-z]{1-3}\\b")删除过短的单词以及dfm(x, keptFeatures="\\b[a-z]{4-99}\\b")以保留足够长的单词但不起作用，基本上做同样的事情，即删除太短的单词。如何从Quanteda DFM对象中删除正则表达式匹配

1热度

1回答

R：使用Quanteda软件包删除通用条款？

的removeCommonTerms功能发现here为TM封装，使得 removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), is.numeric(pct), pct > 0, pct < 1) m

0热度

1回答

R：初始化由两个Quanteda DFM稀疏矩阵的矩阵乘法给出的空dgCMatrix？

我有这样的循环，试图实施该解决方案here，用假瓦尔这样 aaa <- DFM %*% t(DFM) #DFM is Quanteda dfm-sparse-matrix for(i in 1:nrow(aaa)) aaa[i,] <- aaa[i,][order(aaa[i,], decreasing = TRUE)] 但现在 for(i in 1:nrow(mmm)) mmm[i,] <

1热度

1回答

为quanteda dfm中的不同项指定不同的数字权重

我是文本分析的新手，目前正在尝试使用R中的#Quanteda包来满足我的需求。我想为一些特定的分配不同的数字权重并测试模型的准确性。我尝试了在其他线程中提到的方法，通过保留dfm类 Assigning weights to different features in R但是无法获得正确的输出。任何帮助，将不胜感激。这里是我试过 ##install.packages("quanteda") re

0热度

1回答

Quanteda - 将函数应用于文档变量的DFM

我正在使用R的quanteda软件包以及R和包的最新版本。我有一个数百万的文件集。假设我有一个由quanteda生成的DFM，每个文档都有一个docvar的日期。在特定的日子里有成千上万的文件，但是我希望获得适用于这些文件的DFM（白天）（这样我每天就可以得到全部的文字）。我知道quanteda是使用data.table构建的，因此应该可以这样做，但是我在“Quanteda入门”或StackOv