这是不是我的区域,所以我很抱歉,如果这不是在这个堆栈的范围。如何从损坏的数据集中恢复货币信息?
我正在清理(用于个人娱乐并使可视化与他人分享)调查数据(download, 9MB),这些调查数据在发布之前经过了一些匿名操作。
其中一个问题是关于小时支付率和允许自由形式的文本答案。其中一些答案了严重破字,下面的图像显示的两个最常见的情况:
我不愿意丢弃这些问题的答案,但我的损失如何将其恢复到有意义的状态。
要求更好的数据转储 - 戳了相关人员,但不太有希望。
尝试确定哪些字符以这种方式结束。处理编码总是很麻烦,而且这些看起来不像我以前见过的任何破碎的角色,所以我不知道从哪里开始,并且是否有工具可以帮助解决这个问题。这可能甚至不是有效的字符或货币符号。
尝试将破损的字符与有效的货币字符匹配。我强烈怀疑这两个人中的一个可能是€字符,其他可能是£,因为该调查倾向于讲英语的国家。但是,我能够通过相对数量的人物可靠地备份这样的猜测到其他答案吗?不幸的是没有提供地理数据,所以我无法将答案与国家相匹配。
由于这类腐败现象是很普遍的,你怎么能甚至确信*数据的任何*是正确的?例如,可能大部分记录都被删除了,因此一条(原始)行中的值现在与下一行(原始)行中的货币相关联。这似乎是一个数据取证问题,最好通过“操作”重新正确解决。 – whuber
@whuber在上下文中似乎有理智的地方有答案,例如“每小时ЊЈ20 - ЊЈ30取决于客户端”。如果能够更好地获得数据转储,那将是非常好的事情,但直到发生这种情况时(如果发生的话),我想尝试从我拥有的东西中拯救我所能做到的。 – Rarst
我不认为它是Unicode的;如果你在Windows上有Textpad,Textpad非常擅长识别它所在的编码。稍后当我启动Windows时,我会看看它。 – jbowman