0
节点文本
我有一些HTML,看起来像这样:拆分HTML(或XML)通过标签
<div>
Bla bla bla <b>bold stuff</b> Bla bla.
But somewhere else the words bold stuff may appear not in bold
</div>
我想解析该文本提取大胆的元素,非粗体的元素作为单独的列表:
bolds = ['bold stuff']
normal_test = [
'Bla bla bla ',
'Bla bla.\nBut somewhere else the words bold stuff may appear not in bold'
]
我可能是愚蠢的,但我不知道如何使用“标准”的HTML解析器做到这一点。
我可以提取元素的全文,包括粗体,我可以提取粗体,但是我发现不可能弄清楚每个粗体之前和之后的文本是什么,因为可能存在问题非粗体字符串。
我使用lxml的,但愿意考虑与其他解析器,或任何聪明的XPath选择我不知道解决方案...
但是,否则,我要诉诸正则表达式......我们都知道,这将是the end of the world
有人可以拯救地球之前,为时已晚?
[这可能很难,但可能](http://stackoverflow.com/a/4234491/471272)。 – tchrist