2017-07-29 29 views
1

Gridsearhcv使用StratifiedKFold或KFold。所以我的问题是,在使用gridsearch之前,我应该将数据分解成火车并进行测试,然后仅对测试数据进行拟合?我不确定是否有必要,因为cv方法已经分割了数据,但我已经看到了一些预先分割数据的例子。使用GridSearchCV时是否需要拆分数据?

谢谢。

回答

1

GridSearchCV将把你给它的数据分成Train和CV集,并且训练算法使用CV集搜索最好的超参数。您可以指定不同的分割策略(例如分割比例)。

但是,当您执行有关数据集的超参数调整信息仍然'泄漏'到算法中时。

因此,我会建议采取以下做法:

1)把你的原始数据集,并举行了一些数据作为测试集(比如10%)

2)使用网格搜索剩余90%。这里的算法将为你完成分割。

3)获得最佳超参数后,在#1的测试集上对其进行测试,以获得对新数据的性能预测。

相关问题