2014-04-04 42 views
0

我将一个旧的WordPress博客的内容移植到Mezzanine。我被给了一个数据库的JSON转储,并且这些帖子中散布着特殊字符,如下所示:\x96其他非转义的html。如何在Python中将u' x96'转换为u'–'

如果我手动replace&#斜杠和追加一个分号字符正确呈现

所以\x96–

转义的UTF-8(十六进制)为HTML实体(十六进制)

如何在Python中做到这一点?

+2

是否需要是''–?或'–'工作?如果是的话,'u'\ x96'.encode('ascii','xmlcharrefreplace')'就能做到这一点。 – mgilson

回答

1

如果–也是可以接受的,您可以使用:

>>> u'\x96'.encode('ascii', 'xmlcharrefreplace') 
'–' 

这是即使在documentation 叫出来。

(虽然不是很清楚)...

相关问题