2017-09-22 102 views
0

我对WEKA相当陌生,我有一个数据集111 cases109 attributes。我正在使用WEKA中的功能选项卡CfsSubsetEvalBestFirst search method以供feature selection使用。我正在使用leave-one-out cross-validationCfsSubsetEvaluator在进行特征选择时,在选择交叉验证的每个步骤中的特征时使用多少和/或什么标准?

所以,多少特征不WEKA挑或什么是停止标准为特征的数目这个方法选择在交叉验证的各步骤

谢谢,

戈皮

回答

0

CfsSubsetEval算法正在搜索可以很好地协同工作的特征子集(特征之间的相关性较低,与目标标签之间的相关性较高)。子集的分数称为价值(你可以在输出中看到它)。

BestFirst搜索将不允许您确定要选择的功能的数量。但是,您可以使用其他方法,例如GreedyStepWise或使用InformationGain/GainRatio算法与Ranker,并定义特征集的大小。

您可以用来影响集合大小的另一个选项是搜索方向(向前,向后...)。

祝你好运

+0

感谢您的解释。我还有一个疑问:在'WEKA'中用于'BestFirst'搜索方法'参数'它表示_ ** searchTermination - 在终止搜索** _之前指定连续的非改进节点的数量。这就像是交叉验证每一步中功能数量的停止标准。你能解释一下吗 – Gopi

+0

就像我说过的,算法计算每个子集的“优点”得分。 BestFirst几乎是贪婪的。如果以前的分数没有提高分数,该参数确定尝试找到更好的分组的次数。当它达到一个子集时,它不能改进 - 它会停止并返回找到的最佳集合。 – AndreyF