1

我正在做文本分类,将处理未在我的训练数据中捕获的单词,这意味着该单词应被视为未知。SKLearn交叉验证:

有没有人知道如果scikit的交叉验证会将特定单词视为看不见,如果它不存在于训练数据中?

或者即使它不在训练集中,scikit会将所有单词当作特征对待?

回答

3

如果你做一个管道,它包装两种特征提取(如CountVectorizer或TfidfVectorizer)和分类,然后一切都会自动开箱的交叉验证:只发生在列车测试功能集合将被忽略(未映射到向量表示中的维度)。

关于如何使用vocabulary_属性将特征名称映射到documentation on text feature extraction中的尺寸有更多详细信息。

还有一个例子显示how to cross validate a pipeline that comprise a feature extraction component and a classifier

编辑:固定列车/测试错字

编辑2:固定无效连结的例子。

+0

谢谢你,使我安心:-) – Steve

+0

死链接:http://scikit-learn.org/dev/auto_examples/grid_search_text_feature_extraction.html报表 :( – Ashlaban

+0

@Ashlaban感谢,我固定断开的链接。 – ogrisel