2016-01-21 19 views

回答

1

当然,是的,因为如果它是一个随机样本,它代表数据中的基本分布,它告诉您这个特定值具有更高的概率。删除重复数据只会使数据集变得毫无用处。

+0

但是在使用两个类进行简单分类的情况下(例如,Yes \ No),错误重复是否有意义?例如,'0 0 255'显然不是肤色。我认为在200重复它没有意义:) – MrPisarik

+0

我认为这是依赖于使用的分类器类型 – MrPisarik

+0

这是一个不同的问题:数据是否有效? – latorrefabian

0

这很重要。例如:如果行'a'在数据中出现5次,而另一行'b'只出现一次,那么您希望将行'a'分类好于'b',因为当您计算成本函数行'a'会出现更多的时间,并对成本有更大的影响。

而且,如果你的训练很好地代表了测试数据,那么行'a'出现的次数就会高于行'b'的次数。