Q

有偏倚的数据集的培训决策树

2016-04-17 25 views 1 likes

1

我是新来的数据挖掘，我试图训练决策树，但我选择的数据集是非常有偏见的，因此我得到的结果也有偏差。我在网上搜索过，并且我遇到了平衡的准确性。我对结果不满意。有偏倚的数据集的培训决策树

如果我以我平等比例的方式对数据集进行抽样，是不是一个好主意？如YES的1000个案例和NO的1000个案例？

2016-04-17 Praveen

+0

而不是重新采样数据集，我会在训练期间使用权重。 –

A

回答

0

处理类不平衡的一种方法是对较大的类进行欠采样，以使类分布大约为一半。

你的问题的答案是肯定的，只要1000是较小的类的大小，以便你失去较少的大类数据点。

备注：从较大等级的数据点中进行选择时，尽量省略那些缺失值较大的数据点。

2016-04-19 05:14:40

0

您还可以在建模时给予权重。您可以将更高的权重分配给少数族群，这将弥补不平衡。

2016-04-21 18:51:37 Atendra

相关问题