2014-06-24 36 views

回答

38

按照source codesklearn.feature_extraction.textENGLISH_STOP_WORDS完整列表(实际上是frozenset,从stop_words)通过__all__暴露。因此,如果你想使用该列表加上一些更多的项目,你可以这样做:

from sklearn.feature_extraction import text 

stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words) 

(其中my_additional_stop_words是一个字符串的任何序列),并使用结果作为stop_words参数。 CountVectorizer.__init__的这个输入被_check_stop_list解析,它将直接通过新的frozenset

+1

有趣的是,该集合中只有318个停用词。也许这些预先提供的停用词需要由使用它的人来扩展。 –