我有下面的代码,我试图将停止词列表应用于单词列表。然而,结果仍然显示出我认为在这个过程中将被删除的“a”和“the”这样的词。任何出错的想法都会很棒。NLTK停用词列表
import nltk
from nltk.corpus import stopwords
word_list = open("xxx.y.txt", "r")
filtered_words = [w for w in word_list if not w in stopwords.words('english')]
print filtered_words
[停用词去除与NLTK]的可能的复制(http://stackoverflow.com/questions/19130512/stopword-removal-with-nltk) –