我得到了许多的话运行nltk.stem.porter.PorterStemmer().stem_word(word)
后“荷兰国际集团”切断或“Y”换用“I”。例如'质量'变成'Qualiti',(甚至更奇怪的)'价值'变成'价值'?NLTK干的话会产生奇怪的结果
。所获得的话不是实际的英语单词,我不知道我怎么打算使用它们?我最好的猜测是,我的意思是把词干放到另一个函数中,这个函数会给我所有来自这个词干的衍生词/子词(例如'valu'将返回['valuing','valued', 'values', ...]
。是否有这样的功能?
你试过这些词语吗?那里有什么结果? – inspectorG4dget 2012-07-17 02:49:18
用于所要求的术语是** lexeme **。因此,最好的做法是采用原始的预处理单词,并通过这种功能而不是词干版本来运行,以获取单词的所有词位。 – demongolem 2013-03-14 14:34:12