如何从损坏的数据集中恢复货币信息？

这是不是我的区域，所以我很抱歉，如果这不是在这个堆栈的范围。如何从损坏的数据集中恢复货币信息？

我正在清理（用于个人娱乐并使可视化与他人分享）调查数据（download, 9MB），这些调查数据在发布之前经过了一些匿名操作。

其中一个问题是关于小时支付率和允许自由形式的文本答案。其中一些答案了严重破字，下面的图像显示的两个最常见的情况：

enter image description here

我不愿意丢弃这些问题的答案，但我的损失如何将其恢复到有意义的状态。

要求更好的数据转储 - 戳了相关人员，但不太有希望。
尝试确定哪些字符以这种方式结束。处理编码总是很麻烦，而且这些看起来不像我以前见过的任何破碎的角色，所以我不知道从哪里开始，并且是否有工具可以帮助解决这个问题。这可能甚至不是有效的字符或货币符号。
尝试将破损的字符与有效的货币字符匹配。我强烈怀疑这两个人中的一个可能是€字符，其他可能是£，因为该调查倾向于讲英语的国家。但是，我能够通过相对数量的人物可靠地备份这样的猜测到其他答案吗？不幸的是没有提供地理数据，所以我无法将答案与国家相匹配。

2012-01-06 Rarst

由于这类腐败现象是很普遍的，你怎么能甚至确信*数据的任何*是正确的？例如，可能大部分记录都被删除了，因此一条（原始）行中的值现在与下一行（原始）行中的货币相关联。这似乎是一个数据取证问题，最好通过“操作”重新正确解决。 – whuber

@whuber在上下文中似乎有理智的地方有答案，例如“每小时ЊЈ20 - ЊЈ30取决于客户端”。如果能够更好地获得数据转储，那将是非常好的事情，但直到发生这种情况时（如果发生的话），我想尝试从我拥有的东西中拯救我所能做到的。 – Rarst

我不认为它是Unicode的;如果你在Windows上有Textpad，Textpad非常擅长识别它所在的编码。稍后当我启动Windows时，我会看看它。 – jbowman

确认这是由调查软件中的出口错误引起的，字符确实对应于欧元和英镑。

正如您怀疑的那样。

这是一个@Polldaddy导出为CSV格式错误

Pete Davies

2012-01-07 13:50:44 Rarst

嗯......数据的显示有些奇怪。使用写字板或Excel，“欧元”显示为“ä‰å”（大多数字体，无论如何），英镑显示正确。 – whuber

@whuber可能必须与我的Windows设置为俄语区域设置。在你的情况下，欧元损坏的符号看起来拉丁文，在我的情况下（如图），他们看起来像西里尔文。 – Rarst

回答