2016-05-23 22 views
2

我将通过实际案例:[R词干砍的话太多

library(data.table) 
dt <- data.table(words = c("finance", "financial", "business"), 
        freq = c(123, 5, 4589)) 
dt <- dt[, words := SnowballC::wordStem(words, language = "english")] 
View(dt) 

words freq 
financ 123 
financi 5 
busi  4589 

我想词干会给我财政,金融和商业。 我至少希望财务和财务有相同的基本词。 即时通讯组试图分组类似的单词,它适用于有一些词有和已成为 有,但对于一些像上述它似乎工作,除非我误解?

回答

1

看来你的结果就是Porter stemmer算法应该做的。

Documentation(步骤4)示出了具有在实施例中使用的后缀词干的例子:

(M> 1)AL - >复兴 - > reviv

(M> 1)ANCE - >津贴 - >允许

如果你想你的话,那么你可能要运行wordStem或使用所产生的字符串匹配后的功能(例如agrep)之前修剪它们分组。