我试图从以下结构的HTML文件中的文本:从HTML中提取文本穿插着大胆的标签,维持秩序
<td class='srctext>
<pre>
<b> Heading 1 </b>
text
more text
<b> Heading 2 </b>
even more text,
<b> also some bold text </b>
and the last text
</pre>
要做到这一点我使用XPath的,像
//td[@class='srctext]/pre/b
这样做我得到的所有粗体标记的内部文本,我也可以得到预先的整个内部文本,通过使用字符串()包装。
但是我很努力做的,越来越像一个结果:
[
'Heading 1',
'text \n more text',
'Heading 2',
'even more text',
...
]
请不要犹豫,问,如果有不清楚的地方。