0
我有一个文本文件,其中包含unicode字符串“aBiyukwawa”,“varcasÙva”等。当我尝试在Python解释器中使用以下代码解码它们时,它工作正常并解码到u'aBiyuk\xd9wa'
:UnicodeDecodeError在Python与编解码器模块
"aBiyukÙwa".decode("utf-8")
但是从文件的Python程序使用codecs
模块下面的代码,当我读到它,它抛出一个UnicodeDecodeError
。
file = codecs.open('/home/abehl/TokenOutput.wx', 'r', 'utf-8')
for row in file:
以下是错误消息:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd9 in position 8: invalid continuation byte
任何想法是什么原因造成这种奇怪的行为?
◎在ISO8859- [1,3,10,14-16]中是0xD9。 – geoffspear
CP1252也是如此。 –