如何将<转换为<in lxml，Python？

有一个XML文件：如何将<转换为<in lxml，Python？

<body> 
    <entry> 
     I go to <hw>to</hw> to school. 
    </entry> 
</body>

出于某种原因，我LXML解析器解析它一改之前<hw>到<hw>和</hw>到</hw>。

<body> 
    <entry> 
     I go to &lt;hw&gt;to&lt;/hw&gt; to school. 
    </entry> 
</body>

但修改解析的XML数据后，我希望得到一个<hw>元素，不<hw>。我怎样才能做到这一点？

来源

2013-02-02 user1610952

考虑这个回答http://stackoverflow.com/questions/2087370/decode-html-entities-in-python-string –

首先找到一个unescape功能：

from xml.sax.saxutils import unescape 

entry=body[0]

UNESCAPE，并与原有的替换：

body.replace(entry, e.fromstring(unescape(e.tounicode(entry))))

来源

2013-02-02 07:26:13 Kabie

'entry.text'已经转义。没有'unescape（）'是必要的 – jfs

最后，我可以让我的代码做我需要它做的事情，而不是被迫解决什么lxml库认为我需要。谢谢。 – Logic1

如果你知道哪些元素包含错误地逃脱元素：

# parse whole document as usual.. 
# find the entry element.. 
# parse the fragment 
fragment = lxml.fromstring(entry.text) 
# (optionally) add the fragment to the tree 
entry.text = None 
entry.append(fragment)

来源

2013-02-02 07:14:36 jfs

如何将<转换为<in lxml，Python？

回答

相关问题