我有脚本获取一些数据并通过lxml解析它。解码'原始'字符串转换为unicode
最初它有lxml.etree._ElementUnicodeResult
类型,但我们可以很容易地将其转换为unicode
。
有一些危险的时刻。 此unicode字符串包含字符串的原始字节。虽然它的类型为unicode
,但它保留了通常python str
的原始字节。
label
Out[53]: u'\xd0\x92\xd0\xbb\xd0\xb0\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xb8\xd1\x80'
有什么办法这个unicode
字符串的原始字节转换为原始字节实际上(str
类型的蟒蛇2)。
我可以很容易地将其复制并粘贴到交互式控制台,实际上将其转换为Unicode点:
'\xd0\x92\xd0\xbb\xd0\xb0\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xb8\xd1\x80'
Out[54]: '\xd0\x92\xd0\xbb\xd0\xb0\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xb8\xd1\x80'
'\xd0\x92\xd0\xbb\xd0\xb0\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xb8\xd1\x80'.decode('utf-8')
Out[55]: u'\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440'
如果'label'结束有该值必须有在你的代码中的错误。显示产生它的实际代码。 – ekhumoro