你好,如何评估特征选择方法?
如何选择一个给定的数据集(文本数据)最适合的特征选择方法?例如,在Weka中,有几种属性选择方法(CfsSubsetEval,ChiSquaredAttributeEval,...等)和几种搜索方法(bestfirst,greedy,ranker ...等)。
我的问题:我怎么知道哪个属性选择方法和搜索方法最适合给定的数据集?
我的猜测:我应该在应用特征选择过滤器后使用交叉验证来测试数据集吗?例如,这意味着如果我有10个属性选择方法和10个搜索方法,我将需要执行100次交叉验证测试,然后以最高精确度选择配置!!!!!!!我在这里假设我只对一个分类器进行测试。那么,如果我有2个分类器(SMO和J48),我需要执行200个交叉验证测试吗?!
请纠正我,如果我误解了什么......
您可以使用信息增益来确定哪些是最显着的特征 – Steve