我想训练一个回归模型,为了做到这一点,我使用了随机森林模型。但是,我还需要做特征选择,因为我的数据集中有很多特征,如果我使用了所有特征,那么我会过度拟合。为了评估我的模型的性能,我还进行了5次交叉验证,我对这两种方法的问题是正确的,为什么?功能选择和交叉验证
1-我应该将数据分成两半,在上半年做功能选择,并使用这些选定的功能在剩下的一半上进行5次交叉验证(CV)(在这种情况下,5个CV将精确地使用相同的选定功能)。
2-执行以下程序:
1-数据分割成4/5的培训和1/5用于测试 2-分割此训练数据(完整的数据的4/5)到两半: a-)在上半年训练模型,并使用训练的模型做特征选择。 b)使用第一部分中选定的特征,以便在训练数据集的后半部分训练模型(这将是我们最终的训练模型)。 3-对剩余的1/5数据(在训练阶段从未使用)测试模型的性能 4-重复上一步5次,并且在每次我们随机(无替换)地分割数据分成4/5进行训练和1/5进行测试
我唯一担心的是在第二个程序中我们将有5个模型,最终模型的特征将是这五个模型的顶级特征的结合,所以我不确定5CV的性能是否可以反映最终模型的最终性能,特别是因为最终模型具有与5倍中的每个模型不同的特征(因为它是每个模型的选定特征的结合5 CV)