在R中使用DocumentTermMatrix和'dictionary'参数

我想使用R来进行文本分类。我用DocumentTermMatrix返回字的矩阵：在R中使用DocumentTermMatrix和'dictionary'参数

library(tm) 
crude <- "japan korea usa uk albania azerbaijan" 
corps <- Corpus(VectorSource(crude)) 
dtm <- DocumentTermMatrix(corps) 
inspect(dtm) 

words <- c("australia", "korea", "uganda", "japan", "argentina", "turkey") 
test <- DocumentTermMatrix(corps, control=list(dictionary = words)) 
inspect(test)

预期与结果的第一inspect(dtm)工作：

Terms 
Docs albania azerbaijan japan korea usa 
    1  1   1  1  1 1

但第二inspect(test)显示此结果：

Terms 
Docs argentina australia japan korea turkey uganda 
    1   0   1  0  1  0  0

虽然预期结果是：

Terms 
Docs argentina australia japan korea turkey uganda 
    1   0   0  1  1  0  0

这是一个错误还是我用它错误的方式？

来源

2017-06-20 Izzur Zuhri

语料库（）似乎有索引词频率时的错误。

使用VCorpus（）代替，这会给你预期的结果。

来源

2017-09-27 18:11:00 AshOfFire

在R中使用DocumentTermMatrix和'dictionary'参数

回答

相关问题