我正在使用R和tm包来进行一些文本分析。 我正在尝试根据在单个文本文件的内容中是否找到某个表达式来构建语料库的一个子集。基于文本文件的内容对文集进行子集
我创建20个TEXTFILES语料库(谢谢你lukeA在这个例子中):
reut21578 <- system.file("texts", "crude", package = "tm")
corp <- VCorpus(DirSource(reut21578), list(reader = readReut21578XMLasPlain))
我现在想只选择那些包含字符串“降价” TEXTFILES创建一个子集,文集。
检查该文件的第一文本文件,我知道有包含字符串中的至少一个文本文件:
writeLines(as.character(corp[1]))
我怎么会去最好这样做呢?
非常感谢您的加入。我同意,这非常有用! – tarti