2016-10-25 20 views
4

现在我正在使用CountVectorizer来提取功能。但是,我需要计算在拟合期间看不到的词汇。CountVectorizer和词外(OOV)令牌?

在转换过程中,CountVectorizer的默认行为是忽略在拟合过程中未观察到的单词。但我需要保持这种情况发生的次数!

我该怎么做?

谢谢!

回答

1

scikit-learn没有内置的方法来做到这一点,你需要编写一些额外的代码才能做到这一点。但是,您可以使用CountVectorizervocabulary_属性来实现此目的。

  1. 缓存当前的词汇表
  2. 呼叫fit_transform
  3. 计算与新词汇的diff和缓存的词汇