2011-10-31 62 views
3

我参加了数据挖掘领域的一门研究生课程,并且我已经完成了一个代码分配数据挖掘预处理器的任务。我有选择编程语言和数据集的自由。我想知道是否有人可以建议使用一个好的数据集。我一直在经历UCI Repository,我发现了更多这样的资源。但作为初学者,我不确定哪个数据集会是一个不错的选择。预处理器应该处理下列材料:用于预处理的好数据集

  • 数据清理
    • 缺失值
    • 错误
    • 离群
    • Nomralization
    • 重复数据删除
  • 数据缩减
    • 抽样技术
    • 降维

什么样的选择数据,在设置我应该考虑的属性?你会建议的任何具体数据集?

回答

1

你回答了你自己的问题。在UCI存储库已对数据集进行分类时,选择您提及的属性的数据集列表。你可以选择任何人开始玩它。因此,首先,如果我是你,我会继续进行步骤明智的操作,感受这些效果如何以及它们对分类器性能的影响,并选择一些流行数据集,因为它们被用作基准数据集在大多数研究论文中。你列出的大部分是独立的机器学习问题,正在进行大量的研究。

我会像这样开始:
遗漏值:鸢尾,投票,心脏病
的重复:921810歌曲集(不形成UCI我认为)
规范化:任何连续值数据集具有不同范围为特征
采样技术:皮马
降维:瑞士卷

此外,查找数据集的另一个最佳方法是引用一些相应的出版物。例如,为了降低维度,您可以查看PCA,ISOMAP等纸张的样品,参见SMOTE纸等样品,并查看它们用于实验的数据类型,并据此进行操作。

+0

我想知道如果我能找到一个适用于所有人的单一数据集,但无论如何这是一个长镜头。非常感谢这些建议,将会通过它们。 – pcx