2017-06-20 102 views
3

我想使用R来进行文本分类。我用DocumentTermMatrix返回字的矩阵:在R中使用DocumentTermMatrix和'dictionary'参数

library(tm) 
crude <- "japan korea usa uk albania azerbaijan" 
corps <- Corpus(VectorSource(crude)) 
dtm <- DocumentTermMatrix(corps) 
inspect(dtm) 

words <- c("australia", "korea", "uganda", "japan", "argentina", "turkey") 
test <- DocumentTermMatrix(corps, control=list(dictionary = words)) 
inspect(test) 

预期与结果的第一inspect(dtm)工作:

Terms 
Docs albania azerbaijan japan korea usa 
    1  1   1  1  1 1 

但第二inspect(test)显示此结果:

Terms 
Docs argentina australia japan korea turkey uganda 
    1   0   1  0  1  0  0 

虽然预期结果是:

Terms 
Docs argentina australia japan korea turkey uganda 
    1   0   0  1  1  0  0 

这是一个错误还是我用它错误的方式?

回答

1

语料库()似乎有索引词频率时的错误。

使用VCorpus()代替,这会给你预期的结果。

相关问题