4
现在我正在使用CountVectorizer
来提取功能。但是,我需要计算在拟合期间看不到的词汇。CountVectorizer和词外(OOV)令牌?
在转换过程中,CountVectorizer
的默认行为是忽略在拟合过程中未观察到的单词。但我需要保持这种情况发生的次数!
我该怎么做?
谢谢!
现在我正在使用CountVectorizer
来提取功能。但是,我需要计算在拟合期间看不到的词汇。CountVectorizer和词外(OOV)令牌?
在转换过程中,CountVectorizer
的默认行为是忽略在拟合过程中未观察到的单词。但我需要保持这种情况发生的次数!
我该怎么做?
谢谢!
scikit-learn没有内置的方法来做到这一点,你需要编写一些额外的代码才能做到这一点。但是,您可以使用CountVectorizer
的vocabulary_
属性来实现此目的。