SKLearn交叉验证：

我正在做文本分类，将处理未在我的训练数据中捕获的单词，这意味着该单词应被视为未知。SKLearn交叉验证：

有没有人知道如果scikit的交叉验证会将特定单词视为看不见，如果它不存在于训练数据中？

或者即使它不在训练集中，scikit会将所有单词当作特征对待？

2013-01-16 Steve

如果你做一个管道，它包装两种特征提取（如CountVectorizer或TfidfVectorizer）和分类，然后一切都会自动开箱的交叉验证：只发生在列车测试功能集合将被忽略（未映射到向量表示中的维度）。

关于如何使用vocabulary_属性将特征名称映射到documentation on text feature extraction中的尺寸有更多详细信息。

编辑：固定列车/测试错字

编辑2：固定无效连结的例子。

2013-01-16 17:50:01 ogrisel

谢谢你，使我安心:-) – Steve

死链接：http://scikit-learn.org/dev/auto_examples/grid_search_text_feature_extraction.html报表 :( – Ashlaban

@Ashlaban感谢，我固定断开的链接。 – ogrisel

回答