2016-04-17 25 views
1

我是新来的数据挖掘,我试图训练决策树,但我选择的数据集是非常有偏见的,因此我得到的结果也有偏差。我在网上搜索过,并且我遇到了平衡的准确性。我对结果不满意。有偏倚的数据集的培训决策树

如果我以我平等比例的方式对数据集进行抽样,是不是一个好主意?如YES的1000个案例和NO的1000个案例?

+0

而不是重新采样数据集,我会在训练期间使用权重。 –

回答

0

处理类不平衡的一种方法是对较大的类进行欠采样,以使类分布大约为一半。

你的问题的答案是肯定的,只要1000是较小的类的大小,以便你失去较少的大类数据点。

备注:从较大等级的数据点中进行选择时,尽量省略那些缺失值较大的数据点。

0

您还可以在建模时给予权重。您可以将更高的权重分配给少数族群,这将弥补不平衡。