回答
当然,是的,因为如果它是一个随机样本,它代表数据中的基本分布,它告诉您这个特定值具有更高的概率。删除重复数据只会使数据集变得毫无用处。
但是在使用两个类进行简单分类的情况下(例如,Yes \ No),错误重复是否有意义?例如,'0 0 255'显然不是肤色。我认为在200重复它没有意义:) – MrPisarik
我认为这是依赖于使用的分类器类型 – MrPisarik
这是一个不同的问题:数据是否有效? – latorrefabian
这很重要。例如:如果行'a'在数据中出现5次,而另一行'b'只出现一次,那么您希望将行'a'分类好于'b',因为当您计算成本函数行'a'会出现更多的时间,并对成本有更大的影响。
而且,如果你的训练很好地代表了测试数据,那么行'a'出现的次数就会高于行'b'的次数。
- 1. 数据集有重复记录
- 2. 打印重复数据集
- 3. 如何合并重复数据集值到单个数据集
- 4. Apache Ignite-Cassandra集成,数据重复?
- 5. 数据集中的重复列
- 6. 重复整个数据集的功能
- 7. 从数据集中删除重复值
- 8. NHibernate集合获取,重复数据
- 9. django重复数据有时
- 10. 具有重复名称的数据子集
- 11. 子集R数据框或有关重复变量的值
- 12. 如果数据集有行吗?
- 13. 重复数据
- 14. 重复数据
- 15. 设置的重复数据集在SAS数据步
- 16. PostgreSQL中有大型二进制数据的重复数据删除吗?
- 17. 重塑数据集
- 18. 如何重复或复制数据集中的唯一行?
- 19. SSRS - 在多个数据集中重复使用临时表
- 20. 使用相同的数据重复训练集
- 21. 使用group by subquery重复数据删除记录集
- 22. 使用t-sql选择删除重复值的数据集
- 23. 如何使用SAS中重复的变量创建数据集
- 24. 使用strptime会导致数据集中的重复日期
- 25. 使用休眠与大数据集重复行
- 26. 使用matplotlib绘制从文件重复数据集并列出
- 27. 如何汇总和重用复杂数据集
- 28. 我应该重复测试参数(例如收集空虚)吗?
- 29. 我可以保存AR数据以便重复使用吗?
- 30. 重复数据包
跟Joe Pisarcik有关吗? – stackoverflowuser2010
@ stackoverflowuser2010,nope – MrPisarik