我使用quanteda建设两个文件特征矩阵: library(quanteda)
DFM1 <- dfm("this is a rock")
# features
# docs this is a rock
# text1 1 1 1 1
DFM2 <- dfm("this is music")
# features
# docs this is music
# text1 1
可以说一个叫做textstat_frequency{package:quanteda} 的函数为我们提供了以下数据帧。 data.frame(xx=1:4,yy=5:8,foo=c("A","A","B","C"),stringsAsFactors=FALSE)
xx yy foo
1 1 5 A
2 2 6 A
3 3 7 B
4 4 8 C
什么是塑造根据矢量 c("B"
我使用Ken Benoit和Paul Nulty的quanteda软件包处理文本数据。 我的语料库包含带有完整德语句子的文本,我只想处理每个文本的名词。德语中的一个窍门是仅使用大写字母,但这在句子的开头就会失败。 Text1 <- c("Halle an der Saale ist die grünste Stadt Deutschlands")
Text2 <- c("In Hamburg r
我正尝试将使用tm的脚本迁移到量子。阅读量子文档有一个关于应用“下游”变化的原理,以便原始语料库不变。好。 我以前写过一个脚本来查找我们的tm语料库中的拼写错误,并得到了我们团队的支持以创建手动查找。所以,我有一个包含2列的csv文件,第一列是拼写错误术语,第二列是该术语的正确版本。 利用TM包之前我这样做: # Write a custom function to pass to tm_map
我有一个大的1M文档语料库工作,并已申请了几次改变从创建它的文档频率矩阵时: library(quanteda)
corpus_dfm <- dfm(tokens(corpus1M), # where corpus1M is already a corpus via quanteda::corpus()
remove = stopwords("english"),