2014-12-07 48 views
0

我使用TM包中的R,以通过数据集,其结构如下执行文本挖掘从2个目录的数据语料库:加载中的R

有一个目录group_Data其中包含与名称2个不同的目录B和C.现在目录B包含文档和目录C也包含文档。

我知道单独通过创建2个语料库加载目录B和C的数据的方式:

library(tm) 
pathToB = "group_Data/B" 
pathToC = "group_Data/C" 

bCorpus = Corpus(DirSource(pathToB), 
       readerControl = list(reader = readPlain)) 
cCorpus = Corpus(DirSource(pathToC), 
       readerControl = list(reader = readPlain)) 
length(bCorpus) 
length(cCorpus) 

但我需要从B和C的数据加载到一个单一的语料库。 这是我的尝试:

pathToBAndC = "group_Data" 
corpusBC = Corpus(DirSource(pathToBAndC), 
       readerControl = list(reader = readPlain)) 

在运行长命令如下文所述,它给0

length(corpusBC) 

能有人指出,如果我错过了语料库方法中的一个选项,可以做这对我来说?

回答

0

您可以结合语料库与

corpusBC <- c(bCorpus, cCorpus) 

或者根据为?DirSource的文档,你可以在路径矢量路径

corpusBC <- Corpus(DirSource(c(pathToB, pathToC)), 
    readerControl = list(reader = readPlain))