2012-09-16 138 views
5

我正试图在Weka中执行属性选择。我想使用InfoGainAttributeEval作为评估者,因为我读到它相当于互信息,Ranker作为搜索方法。我应该对训练和测试集进行属性选择吗?另外,如何为N参数选择正确的值?Weka属性选择

非常感谢您的时间,

纳迪亚

回答

1

在火车上和测试单独申请属性选择可能会导致选择不同的属性,从而使它们不兼容。因此,为了确保两个集合具有相同的属性,您需要在整个数据集上应用属性选择。一旦你选择了最有用的属性,你就可以将数据分割成一个列车和测试集。

至于要使用哪个值-N,我会使用您的总数属性。这将导致所有属性的排名列表,并且您可以自己评估所有属性的不同分数。然后,您可能会发现一个明确的阈值,将保留任何有用信息的属性分开,以便从不添加任何内容的属性中训练分类器然后我会使用-T选项设置此阈值。

+0

你好@Sicco!我猜想批量过滤等同于您的培训和测试集兼容方法。你对-N和-T参数的建议帮助我澄清了这个问题,并且我将在Weka中尝试它们。非常感谢您提供的信息,并对延迟回答感到抱歉! – nadia

+0

不会选择属性这种方式过度使用? – fiacobelli

+0

@fiacobelli这取决于你设置门槛的严格程度。如果你只采取最佳表现的属性,而忽视其他过度拟合的可能性更大。我的建议是采取尽可能多的属性,似乎有一些有趣的数据,并删除明显缺乏有价值信息的属性。我在答复中更清楚地说明了这一点。 – Sicco