2

你好,如何评估特征选择方法?

如何选择一个给定的数据集(文本数据)最适合的特征选择方法?例如,在Weka中,有几种属性选择方法(CfsSubsetEval,ChiSquaredAttributeEval,...等)和几种搜索方法(bestfirst,greedy,ranker ...等)。

我的问题:我怎么知道哪个属性选择方法和搜索方法最适合给定的数据集?

我的猜测:我应该在应用特征选择过滤器后使用交叉验证来测试数据集吗?例如,这意味着如果我有10个属性选择方法和10个搜索方法,我将需要执行100次交叉验证测试,然后以最高精确度选择配置!!!!!!!我在这里假设我只对一个分类器进行测试。那么,如果我有2个分类器(SMO和J48),我需要执行200个交叉验证测试吗?!

请纠正我,如果我误解了什么......

+0

您可以使用信息增益来确定哪些是最显着的特征 – Steve

回答

4

你可以试试信息增益或主成分分析,以确定哪些功能加入最让您的分类(信息增益)或具有最高的方差分析(PCA)。

你也可以使用你提到的技巧。但是无论你做什么,你都必须对它进行评估,看看它的效果如何,这取决于你的前景可能会很痛苦或者很有趣:-)

1

有不同种类的特征选择,包括过滤器和包装方法。过滤器方法是基于距离,相关性或互信息来选择特征的与分类器无关的技术。我建议您检查FEAST工具和mRMR

关于基于特定分类器的性能的包装模型,您不需要枚举所有的搜索方法。您修复了一种搜索方法并应用了您的帖子中提出的比较。

1

您应该在整个数据集上构建一个模型,然后执行特征选择(FS)。如果您有多个模型,则可以通过引用RMSE或MSE来缩放功能重要性。如果您熟悉R,请尝试使用google搜索“随机森林和功能选择”。