我试图从网站中获取带有特殊字符的文本,并且Python返回的字符串因此充满了“\ x”字符。 但是,似乎编码是错误的。 例如,读取时:Python获取UTF-8字符的错误编码?
根据th =urllib2.urlopen('http://norse.ulver.com/dct/zoega/th.html')
在网页中应包含字母“TH”,其中有字节数C39E和Unicode代码DE的<h1>
水平线上http://www.fileformat.info/info/charset/UTF-8/list.htm
相反,我得到
'<h1>\xc3\x9e</h1>'
在两个字节数分裂,使写入行到一个文件时,然后用Unicode编码打开它,我得到“AZ”,而不是“TH”。
如何强制Python对\uC39E
或\xde
而不是\xc3\x9e
这样的字符进行编码?
声音就像一切正在工作,但它会混淆。别担心,这是相当普遍的。不要使用拉丁语-1或代码页1251工具来检查UTF-8(或者直接前往;但了解您正在查看的内容)。 – tripleee
术语更正:0xC3 0x9E是[U + 00DE](http://www.fileformat.info/info/unicode/char/00de/index.htm)的UTF-8 *编码*。 – tripleee