2015-07-03 46 views
2

我有一个文件是一些明文的十六进制字节(前18个字节除外),但文件编码是UTF-16。下面是该文件的一个短转储:解码UTF-16编码的十六进制字符的字符串

00000000 ff fe 35 1f d3 bb 7a ef df 45 92 df be ff 33 c2 |..5...z..E....3.| 
00000010 af c7 30 00 42 00 45 00 33 00 45 00 35 00 45 00 |..0.B.E.3.E.5.E.| 
00000020 35 00 44 00 35 00 44 00 41 00 36 00 44 00 38 00 |5.D.5.D.A.6.D.8.| 
00000030 42 00 41 00 30 00 37 00 39 00 42 00 46 00 34 00 |B.A.0.7.9.B.F.4.| 
00000040 46 00 31 00 45 00 41 00 36 00 37 00 32 00 34 00 |F.1.E.A.6.7.2.4.| 
00000050 42 00 39 00 43 00 42 00 41 00 42 00 45 00 44 00 |B.9.C.B.A.B.E.D.| 
... 

我想从一个字符串逐行读取这个文件行(它有\r\n换行符),并获得十六进制数据。如果这是一个ASCII字符串我可以做到这一点:

a_line = '00112233445566778899' 
hex_data = a_line.decode('hex') 

但因为它是UTF-16我尝试这种方法时得到一个Non-hexadecimal digit错误。

我的问题是,我该如何加载一串UTF-16编码的十六进制字符作为十六进制数据?

回答

1
00000000 ff fe 35 1f d3 bb 7a ef df 45 92 df be ff 33 c2 |..5...z..E....3.| 
00000010 af c7 30 00 42 00 45 00 33 00 45 00 35 00 45 00 |..0.B.E.3.E.5.E.| 

第一行包含非十六进制字符35 1f d3 bb 7a ef ... af c7。所以,要小心解码 - 它不是纯粹的Hex。

可以使用io模块,在那里你可以显式声明文件编码读取该文件:

def main(args): 
    with io.open(testfile, "r", encoding = 'utf-16') as inf: 
     lines = inf.readlines() 

    for line in lines: 
     print(line) 

    return 0 

换行应该会自动检测到,但你可以在io.open有一个额外的参数明确地定义他们( , newline = "\r\n"

一旦阅读,您应该能够正常.decode

相关问题