Scikit-learn的CountVectorizer类可让您将字符串'english'传递给参数stop_words。我想添加一些东西到这个预定义的列表。谁能告诉我如何做到这一点?将词语添加到scikit-learn的CountVectorizer的停止列表中
15
A
回答
38
按照source code为sklearn.feature_extraction.text
的ENGLISH_STOP_WORDS
完整列表(实际上是frozenset
,从stop_words
)通过__all__
暴露。因此,如果你想使用该列表加上一些更多的项目,你可以这样做:
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)
(其中my_additional_stop_words
是一个字符串的任何序列),并使用结果作为stop_words
参数。 CountVectorizer.__init__
的这个输入被_check_stop_list
解析,它将直接通过新的frozenset
。
+1
有趣的是,该集合中只有318个停用词。也许这些预先提供的停用词需要由使用它的人来扩展。 –
相关问题
- 1. 英语“停止词”列表?
- 2. 将Sklearn的CountVectorizer的词汇表设置为词组的短语
- 3. MySQL:添加停止列表
- 4. 向CountVectorizer添加词干支持(sklearn)
- 5. 如何将自定义停用词列表添加到StopWordsRemover
- 6. 如何将停用词添加到ElasticSearch中的默认列表中
- 7. 将单词添加到列表
- 8. 将单词列表添加到词典中
- 9. 将字符串中的每个单词添加到列表中?
- 10. Scikitlearn中的一些停用词的无用移除
- 11. 将“this.disabled”添加到onclick以停止重复的表单提交
- 12. Flex:停止TabNavigator将#HASH添加到URL
- 13. 将OnClick停止添加到音频
- 14. 将列添加到表中
- 15. 将语言添加到ExpressionEngine中的关系下拉列表中
- 16. 空的词汇通过CountVectorizer
- 17. 小写停止的话在NLTK,并存储在列表中的停止词
- 18. 向TexStudio/Latex添加禁止词语
- 19. 将数字添加到stop_words以scikit-learn的CountVectorizer
- 20. CountVectorizer读写词汇
- 21. 如何将词典列表添加到另一个词典列表?
- 22. 如何将新的语音词典添加到NSSpeechSynthesizer中?
- 23. 停止“?”被添加到URL
- 24. 将解析的字符串列表添加到词典wpf c#
- 25. 如何将新的键值对添加到词典列表?
- 26. 将列添加到Django的表中
- 27. 添加到词典列表 - python
- 28. 添加元素到词典列表
- 29. 如何在nltk列表中添加更多停用词?
- 30. 将单词表添加到vim拼写
你的意思是你想要默认的''english''' stop_words'加上你自己的一些额外的东西吗? – jonrsharpe
这篇文章一直是救生员。 – TheM00s3