如何评估特征选择方法？

你好，如何评估特征选择方法？

如何选择一个给定的数据集（文本数据）最适合的特征选择方法？例如，在Weka中，有几种属性选择方法（CfsSubsetEval，ChiSquaredAttributeEval，...等）和几种搜索方法（bestfirst，greedy，ranker ...等）。

我的问题：我怎么知道哪个属性选择方法和搜索方法最适合给定的数据集？

我的猜测：我应该在应用特征选择过滤器后使用交叉验证来测试数据集吗？例如，这意味着如果我有10个属性选择方法和10个搜索方法，我将需要执行100次交叉验证测试，然后以最高精确度选择配置!!!!!!!我在这里假设我只对一个分类器进行测试。那么，如果我有2个分类器（SMO和J48），我需要执行200个交叉验证测试吗？！

请纠正我，如果我误解了什么......

来源

2013-01-08 TeFa

您可以使用信息增益来确定哪些是最显着的特征 – Steve

你可以试试信息增益或主成分分析，以确定哪些功能加入最让您的分类（信息增益）或具有最高的方差分析（PCA）。

你也可以使用你提到的技巧。但是无论你做什么，你都必须对它进行评估，看看它的效果如何，这取决于你的前景可能会很痛苦或者很有趣:-)

来源

2013-01-08 22:34:45 Steve

有不同种类的特征选择，包括过滤器和包装方法。过滤器方法是基于距离，相关性或互信息来选择特征的与分类器无关的技术。我建议您检查FEAST工具和mRMR。

关于基于特定分类器的性能的包装模型，您不需要枚举所有的搜索方法。您修复了一种搜索方法并应用了您的帖子中提出的比较。

来源

2013-01-09 03:47:31 soufanom

您应该在整个数据集上构建一个模型，然后执行特征选择（FS）。如果您有多个模型，则可以通过引用RMSE或MSE来缩放功能重要性。如果您熟悉R，请尝试使用google搜索“随机森林和功能选择”。

来源

2013-01-09 10:01:24

如何评估特征选择方法？

回答

相关问题