我正在面对包含'<'符号的mathjax方程式问题。 如果我用lxml解析这些字符串,那么这个字符串会被裁剪掉。用lxml解析'<'符号
有没有办法告诉解析器不去除未知标签(我猜这就是问题),但保持原样?
E.g
s="<div> This is a text with mathjax like $1<2$, let's see if this works till here $2>1$! </div>"
from lxml import html
tree=html.fragment_fromstring(s)
html.tostring(tree)
给出:
'<div> This is a text with mathjax like $11$! </div>'
如果 '<' 被逃脱了什么冒出这将是罚款。
我完全知道这是无效的XML。但是,不幸的是,我不能用源代码中正确的html转义符号替换'<'符号,因为实际上,我试图解析包含html标记的降价文件,<符号在这里是一个完美的符号。
谢谢!
雅各布
因为字符串是不正确你的XML –
逃脱@ user2799617当然是不!这是问题和问题的原因! – Jakob