用于预处理的好数据集

我参加了数据挖掘领域的一门研究生课程，并且我已经完成了一个代码分配数据挖掘预处理器的任务。我有选择编程语言和数据集的自由。我想知道是否有人可以建议使用一个好的数据集。我一直在经历UCI Repository，我发现了更多这样的资源。但作为初学者，我不确定哪个数据集会是一个不错的选择。预处理器应该处理下列材料：用于预处理的好数据集

数据清理
- 缺失值
- 错误
- 离群
- Nomralization
- 重复数据删除
数据缩减
- 抽样技术
- 降维

什么样的选择数据，在设置我应该考虑的属性？你会建议的任何具体数据集？

来源

2011-10-31 pcx

你回答了你自己的问题。在UCI存储库已对数据集进行分类时，选择您提及的属性的数据集列表。你可以选择任何人开始玩它。因此，首先，如果我是你，我会继续进行步骤明智的操作，感受这些效果如何以及它们对分类器性能的影响，并选择一些流行数据集，因为它们被用作基准数据集在大多数研究论文中。你列出的大部分是独立的机器学习问题，正在进行大量的研究。

我会像这样开始：
遗漏值：鸢尾，投票，心脏病
的重复：921810歌曲集（不形成UCI我认为）
规范化：任何连续值数据集具有不同范围为特征
采样技术：皮马
降维：瑞士卷

此外，查找数据集的另一个最佳方法是引用一些相应的出版物。例如，为了降低维度，您可以查看PCA，ISOMAP等纸张的样品，参见SMOTE纸等样品，并查看它们用于实验的数据类型，并据此进行操作。

来源

2011-11-01 06:59:55 iinception

我想知道如果我能找到一个适用于所有人的单一数据集，但无论如何这是一个长镜头。非常感谢这些建议，将会通过它们。 – pcx

用于预处理的好数据集

回答

相关问题