当我打开url并阅读它时,我无法识别它。但是当我检查内容头时,它说它被编码为utf-8。所以我试图将其转换为unicode,它抱怨UnicodeDecodeError:'ascii'编解码器无法解码位置1中的字节0x8b:序号不在范围(128)中使用unicode()。
提供错误字符集的urllib2 opener
.encode( “UTF-8”)产生 UnicodeDecodeError错误: 'ASCII' 编解码器不能在位置1解码字节0x8b:在范围序数不(128)
.decode(“UTF- 8“)生成 UnicodeDecodeError:'utf8'编解码器无法解码位置1中的字节0x8b:无效的起始字节。
我已经试过各种我能想出(我不擅于编码)
我会很高兴,如果我能得到这个工作。谢谢。
HTTP头可能是错的 - 寻找在HTML本身指定HTML元标记。它可能是Latin-1('.decode('latin-1')')。 – 2012-02-25 16:17:06
试过了。我很确定它是utf-8,因为当我访问该网站时,chrome sais是这样。 – thabubble 2012-02-25 16:45:30
如果你的流真的是utf8编码的话,'.decode(“utf-8”)'会起作用。所以,你必须误解某件事。你能发布给你带来麻烦的URL(或:URL)吗? – alexis 2012-02-25 17:32:21