[R词干砍的话太多

2016-05-23 22 views 2 likes

library(data.table) 
dt <- data.table(words = c("finance", "financial", "business"), 
        freq = c(123, 5, 4589)) 
dt <- dt[, words := SnowballC::wordStem(words, language = "english")] 
View(dt) 

words freq 
financ 123 
financi 5 
busi  4589

我想词干会给我财政，金融和商业。我至少希望财务和财务有相同的基本词。即时通讯组试图分组类似的单词，它适用于有一些词有和已成为有，但对于一些像上述它似乎工作，除非我误解？

来源

2016-05-23 Oli Paul

回答

看来你的结果就是Porter stemmer算法应该做的。

Documentation（步骤4）示出了具有在实施例中使用的后缀词干的例子：

（M> 1）AL - >复兴 - > reviv

（M> 1）ANCE - >津贴 - >允许

如果你想你的话，那么你可能要运行wordStem或使用所产生的字符串匹配后的功能（例如agrep）之前修剪它们分组。

来源

2016-05-23 08:53:35 epo3

[R词干砍的话太多

回答

相关问题