2016-11-10 34 views
0

我已经使用以下命令创建的语料库:子串在语料库中TM包

corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION)) 
corpus_map <- tm_map(corpus_map, removeNumbers) 

上述命令从所述语料库中删除号码。有没有任何命令可以对一个语料库中的所有单词进行细分?例如:“Traveling”应该被转换成#字符的子串作为“tra”。通常情况下,我会用

substr("travelling",1,3) 

,但我想这样做同样的事情胼以旧换新

回答

0

您可以编写一个函数来做到你想要的转换和对语料库运行,因此,例如:

ConvertStrings <- function(textInput){ 
textOutput <- gsub("travelling", "tra", textInput) 
textOutput <- gsub("furtherWords", "further", textOutput) 
#... 
return(textOutput) 
} 
corpus_transformed <- ConvertStrings(corpus_map) 
+0

但是,我怎样才能做到这一点,每个文件中的每个字,最多3个字符?在这里,旅行正在被称为“tra”。它会适用于所有的单词吗? –

相关问题