2015-09-21 25 views
0

假设我们有一个大型的匿名数据数据集。数据集包含一定数量的变量和观察值。我们可以了解的所有数据都是变量的类型(数字,字符,日期等)。我们可以通过手动查看数据来完成。 用于进一步分析的预处理数据集的最佳实践步骤是什么?预处理匿名数据以进行预测分析的步骤是什么?

就比如,让这组数据只是一个表,所以我们并不需要检查表之间的任何关系。

回答

0

This link给出了一套完整的验证目前在实践中。不过,先从:

  • 只要有可能,都写在这样你可以用你喜欢的编程语言的方法/构造解析它的速度和尽可能方便,这是一种您的数据;
  • 如果所有的数据类型匹配正确,您可以验证 - 如int字段不包含字符串数据等;
  • 您可以验证您的值是否在可接受的范围内;
  • 检查一个不可为空的字段是否有空值;
  • 检查日期是否在预期范围内;
  • 检查数据是否正确设置成员资格限制在适用的地方;
  • 如果你有以下类似电话号码的数据模式,确保他们在(XXX)XXX-XXXX的设计,如果你喜欢他们的方式;
  • 是在正确的精度水平的邮政编码(在美国,你可以具有5个或9位数字的准确性);
  • 如果你的数据是时间序列,是完成(即你有所有日期值)?
  • 有没有不必要的重复?

希望这是不够好,让你开始...

+0

可能我需要更新的问题,以澄清。请参阅更新。 – angubenko

+0

@angubenko:我看不到你的问题有任何更新。 – displayName

+0

对不起,我输入了它 – angubenko

相关问题