子串在语料库中TM包

我已经使用以下命令创建的语料库：子串在语料库中TM包

corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION)) 
corpus_map <- tm_map(corpus_map, removeNumbers)

上述命令从所述语料库中删除号码。有没有任何命令可以对一个语料库中的所有单词进行细分？例如：“Traveling”应该被转换成＃字符的子串作为“tra”。通常情况下，我会用

substr("travelling",1,3)

，但我想这样做同样的事情胼以旧换新

来源

2016-11-10 Shyam Narasimhan

您可以编写一个函数来做到你想要的转换和对语料库运行，因此，例如：

ConvertStrings <- function(textInput){ 
textOutput <- gsub("travelling", "tra", textInput) 
textOutput <- gsub("furtherWords", "further", textOutput) 
#... 
return(textOutput) 
} 
corpus_transformed <- ConvertStrings(corpus_map)

来源

2016-11-10 11:52:19 user116

但是，我怎样才能做到这一点，每个文件中的每个字，最多3个字符？在这里，旅行正在被称为“tra”。它会适用于所有的单词吗？ –

子串在语料库中TM包

回答

相关问题