将词语添加到scikit-learn的CountVectorizer的停止列表中

Scikit-learn的CountVectorizer类可让您将字符串'english'传递给参数stop_words。我想添加一些东西到这个预定义的列表。谁能告诉我如何做到这一点？将词语添加到scikit-learn的CountVectorizer的停止列表中

你的意思是你想要默认的''english''' stop_words'加上你自己的一些额外的东西吗？ – jonrsharpe

这篇文章一直是救生员。 – TheM00s3

按照source code为sklearn.feature_extraction.text的ENGLISH_STOP_WORDS完整列表（实际上是frozenset，从stop_words）通过__all__暴露。因此，如果你想使用该列表加上一些更多的项目，你可以这样做：

from sklearn.feature_extraction import text 

stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)

（其中my_additional_stop_words是一个字符串的任何序列），并使用结果作为stop_words参数。 CountVectorizer.__init__的这个输入被_check_stop_list解析，它将直接通过新的frozenset。

2014-06-24 12:33:04 jonrsharpe

有趣的是，该集合中只有318个停用词。也许这些预先提供的停用词需要由使用它的人来扩展。 –

回答