0
我已经使用以下命令创建的语料库:子串在语料库中TM包
corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION))
corpus_map <- tm_map(corpus_map, removeNumbers)
上述命令从所述语料库中删除号码。有没有任何命令可以对一个语料库中的所有单词进行细分?例如:“Traveling”应该被转换成#字符的子串作为“tra”。通常情况下,我会用
substr("travelling",1,3)
,但我想这样做同样的事情胼以旧换新
但是,我怎样才能做到这一点,每个文件中的每个字,最多3个字符?在这里,旅行正在被称为“tra”。它会适用于所有的单词吗? –