2015-12-11 100 views
3

我有关于合奏功能选择的问题。从功能集合中选择合奏功能

我的数据集由1000个具有约30000个特征的样本组成,它们分为标签A或标签B. 我想要做的是挑选某些可以高效分类标签的特征。我使用了三种类型的方法,单变量法(Pearson系数),套索回归和SVM-RFE(递归特征消除),所以我从它们中获得了三个特征集。我使用python scikit-learn进行功能选择。

然后我在考虑集成特征选择方法,因为特征的大小非常大。在这种情况下,使用3个功能集制作集成子集的方法是什么?

我能想到的是将这些集合联合起来,并再次使用套索回归或SVM-RFE,或者只是采用集合的交集。

任何人都可以提供一个想法吗?

回答

1

我想你要做什么取决于你以后如何使用这些功能。如果您的目标是“有效地对标签进行分类”,您可以做的一件事就是使用您的分类算法(即SVC,套索等)作为包装,并执行Recursive Feature Elimination (RFE) with cross-validation

您可以从之前使用的三种方法中的特征联合开始,或者从您希望拟合的给定类型的模型开始,因为示例数量很少。无论如何,我相信在你的案例中选择功能的最佳方式是选择那些优化你的目标的方法,这似乎是分类准确性,因此是简历提案。

+0

非常感谢。正如你所提到的,我的目标是找到一个重要的特征,它可以优化分类的准确性(或灵敏度)。另外我想找出选定特征的一些共同特征,所以使用大量特征(根据它们的权重)的一般分类不能直接应用。带CV的RFE似乎很适合消除不必要的功能。感谢您的建议。 – ToBeSpecific