重复数据集有用吗？

我下载了Skin Segmentation Data Set，发现它包含很多重复项。
例如，这行0 128 0 2遇到199次。重复数据集有用吗？

请提供几个例子，当重复是好的，什么时候是邪恶的。

2016-01-21 MrPisarik

跟Joe Pisarcik有关吗？ – stackoverflowuser2010

@ stackoverflowuser2010，nope – MrPisarik

当然，是的，因为如果它是一个随机样本，它代表数据中的基本分布，它告诉您这个特定值具有更高的概率。删除重复数据只会使数据集变得毫无用处。

2016-01-22 01:01:25 latorrefabian

但是在使用两个类进行简单分类的情况下（例如，Yes \ No），错误重复是否有意义？例如，'0 0 255'显然不是肤色。我认为在200重复它没有意义:) – MrPisarik

我认为这是依赖于使用的分类器类型 – MrPisarik

这是一个不同的问题：数据是否有效？ – latorrefabian

这很重要。例如：如果行'a'在数据中出现5次，而另一行'b'只出现一次，那么您希望将行'a'分类好于'b'，因为当您计算成本函数行'a'会出现更多的时间，并对成本有更大的影响。

而且，如果你的训练很好地代表了测试数据，那么行'a'出现的次数就会高于行'b'的次数。

2016-01-24 20:05:13 manbearpig

回答