我一直在使用R的tm
包,在分类问题上取得了很大的成功。我知道如何在整个语料库中找到最频繁的词条(使用findFreqTerms()
),但在文档中没有看到任何可以找到最频繁词语的词语(在我删除了停用词之后,但在删除稀疏词语之前)在文集中的每个单独文档中。我试过使用apply()
和max
命令,但是这给了我每个文档中术语发生的最大次数,而不是术语本身的名称。在一个语料库的每个文档中查找最频繁的词条
library(tm)
data("crude")
corpus<-tm_map(crude, removePunctuation)
corpus<-tm_map(corpus, stripWhitespace)
corpus<-tm_map(corpus, tolower)
corpus<-tm_map(corpus, removeWords, stopwords("English"))
corpus<-tm_map(corpus, stemDocument)
dtm <- DocumentTermMatrix(corpus)
maxterms<-apply(dtm, 1, max)
maxterms
127 144 191 194 211 236 237 242 246 248 273 349 352
5 13 2 3 3 10 8 3 7 9 9 4 5
353 368 489 502 543 704 708
4 4 4 5 5 9 4
想法?
关于关系的好处,很对。 – Ben
同意。本,如果你不介意的话,我正在把这个接受的答案提出来。 – Bryan