我参加了数据挖掘领域的一门研究生课程,并且我已经完成了一个代码分配数据挖掘预处理器的任务。我有选择编程语言和数据集的自由。我想知道是否有人可以建议使用一个好的数据集。我一直在经历UCI Repository,我发现了更多这样的资源。但作为初学者,我不确定哪个数据集会是一个不错的选择。预处理器应该处理下列材料:用于预处理的好数据集
- 数据清理
- 缺失值
- 错误
- 离群
- Nomralization
- 重复数据删除
- 数据缩减
-
个
- 抽样技术
- 降维
什么样的选择数据,在设置我应该考虑的属性?你会建议的任何具体数据集?
我想知道如果我能找到一个适用于所有人的单一数据集,但无论如何这是一个长镜头。非常感谢这些建议,将会通过它们。 – pcx