我将引用特德数据集抄本。我注意到了一些奇怪的东西: 并非所有的单词都被词性化。说,WordNetLemmatizer不返回正确的引理,除非POS是明确的 - Python NLTK
selected -> select
这是正确的。
但是,involved !-> involve
和horsing !-> horse
除非我明确输入'v'(动词)属性。
蟒终端,我得到正确的输出,但不是在我的code:
>>> from nltk.stem import WordNetLemmatizer
>>> from nltk.corpus import wordnet
>>> lem = WordNetLemmatizer()
>>> lem.lemmatize('involved','v')
u'involve'
>>> lem.lemmatize('horsing','v')
u'horse'
代码的相关部分是这样的:
for l in LDA_Row[0].split('+'):
w=str(l.split('*')[1])
word=lmtzr.lemmatize(w)
wordv=lmtzr.lemmatize(w,'v')
print wordv, word
# if word is not wordv:
# print word, wordv
整个代码here。
什么问题?
代码是不工作没有安装...你能提取输入,例如LDA_Row是怎样的? – rebeling
这是因为你的POS标签是错的。 P/S:下一次,请尽量不要发布完整的代码,但在代码中含有解释问题的片段,否则,Stackoverflow用户可能会试图关闭“问题不清楚”的问题,或者这是“我的代码不起作用“question =) – alvas