假设我有很多东西像Python的Unencode unicode的HTML十六进制
“words words words
字符串有没有办法将这些通过蟒蛇直接转换成他们所代表的人物?
我试图
h = HTMLParser.HTMLParser()
print h.unescape(x)
但得到这个错误:
UnicodeEncodeError: 'ASCII' 编解码器在0-2位置无法编码的字符:顺序不在范围内(128)
我也试过
print h.unescape(x).encode(utf-8)
但它编码
“
作为â
时,它应该是一个报价
是什么让你觉得'“'应该是逗号?这是从哪里来的?把它们转换成它们代表'h.unescape(x)'的字符呢......但是当你尝试打印它时出现问题......试着看看它的repr –
我说的不是逗号。从上下文中可以明显看出它是一个引用,因为它们出现在应该有引号的字符串的开始和结尾。这个页面在“作为一个HTML实体字符串:”部分中显示了这一点:http://software.hixie.ch/utilities/cgi/unicode-decoder/character-identifier?characters=%E2%80%9C – user3752900
我的错误...好吧,这给我更多的工作与保持 –