2012-01-06 57 views
0

这是不是我的区域,所以我很抱歉,如果这不是在这个堆栈的范围。如何从损坏的数据集中恢复货币信息?

我正在清理(用于个人娱乐并使可视化与他人分享)调查数据(download, 9MB),这些调查数据在发布之前经过了一些匿名操作。

其中一个问题是关于小时支付率和允许自由形式的文本答案。其中一些答案了严重破字,下面的图像显示的两个最常见的情况:

enter image description here

我不愿意丢弃这些问题的答案,但我的损失如何将其恢复到有意义的状态。

  1. 要求更好的数据转储 - 戳了相关人员,但不太有希望。

  2. 尝试确定哪些字符以这种方式结束。处理编码总是很麻烦,而且这些看起来不像我以前见过的任何破碎的角色,所以我不知道从哪里开始,并且是否有工具可以帮助解决这个问题。这可能甚至不是有效的字符或货币符号。

  3. 尝试将破损的字符与有效的货币字符匹配。我强烈怀疑这两个人中的一个可能是€字符,其他可能是£,因为该调查倾向于讲英语的国家。但是,我能够通过相对数量的人物可靠地备份这样的猜测到其他答案吗?不幸的是没有提供地理数据,所以我无法将答案与国家相匹配。

+0

由于这类腐败现象是很普遍的,你怎么能甚至确信*数据的任何*是正确的?例如,可能大部分记录都被删除了,因此一条(原始)行中的值现在与下一行(原始)行中的货币相关联。这似乎是一个数据取证问题,最好通过“操作”重新正确解决。 – whuber

+0

@whuber在上下文中似乎有理智的地方有答案,例如“每小时ЊЈ20 - ЊЈ30取决于客户端”。如果能够更好地获得数据转储,那将是非常好的事情,但直到发生这种情况时(如果发生的话),我想尝试从我拥有的东西中拯救我所能做到的。 – Rarst

+0

我不认为它是Unicode的;如果你在Windows上有Textpad,Textpad非常擅长识别它所在的编码。稍后当我启动Windows时,我会看看它。 – jbowman

回答

0

确认这是由调查软件中的出口错误引起的,字符确实对应于欧元和英镑。

正如您怀疑的那样。

enter image description here

这是一个@Polldaddy导出为CSV格式错误

Pete Davies

+0

嗯......数据的显示有些奇怪。使用写字板或Excel,“欧元”显示为“ä‰å”(大多数字体,无论如何),英镑显示正确。 – whuber

+1

@whuber可能必须与我的Windows设置为俄语区域设置。在你的情况下,欧元损坏的符号看起来拉丁文,在我的情况下(如图),他们看起来像西里尔文。 – Rarst

相关问题