直到最近(1个月前),下面显示的代码允许我将存储在本地文件夹中的一系列.txt文档导入R,创建一个语料库,对其进行预处理并最终将其转换为文档术语表。我遇到的问题是没有导入文档名称,而是将每个文档都列为“字符(0)”。R - 文本挖掘 - 导入语料库并保存文档名称矩阵中的文件名
我的目标之一是在语料库上进行主题建模,因此将文档名称与模型生成的主题联系起来非常重要。
有没有人有什么建议,以什么改变?或者我可以如何解决这个问题?
library("tm")
library("SnowballC")
setwd("C:/Users/Documents/Dataset/")
corpus <-Corpus(DirSource("blog"))
#pre_processing
myStopwords <- c(stopwords("english"))
your_corpus <- tm_map(corpus, tolower)
your_corpus <- tm_map(your_corpus, removeNumbers)
your_corpus <- tm_map(your_corpus, removeWords, myStopwords)
your_corpus <- tm_map(your_corpus, stripWhitespace)
your_corpus <- tm_map(your_corpus, removePunctuation)
your_corpus <- tm_map(your_corpus, stemDocument)
your_corpus <- tm_map(your_corpus, PlainTextDocument)
#creating a doucment term matrix
myDtm <- DocumentTermMatrix(your_corpus, control=list(wordLengths=c(3,Inf)))
dim(myDtm)
inspect(myDtm)
我以前有这个问题,但不记得了问题/ 解析度。如果您在每次操作后检查your_corpus,则可以看到该ID何时被丢弃。然后,您可以搜索该操作。此外,检查这个答案http://stackoverflow.com/questions/24501514/keep-document-id-with-r-corpus – user3969377 2014-10-08 14:25:47