0
例如,对于一个HTML文档:有没有办法在DOM中的HTML标签之间提取文字逐字?
<html>
<body>
<p>Hello <b>world</b></p>
</body>
</html>
我知道我可以使用getTextContent()
获得"Hello world"
,但有一种方式来获得"Hello <b>world</b>"
?
例如,对于一个HTML文档:有没有办法在DOM中的HTML标签之间提取文字逐字?
<html>
<body>
<p>Hello <b>world</b></p>
</body>
</html>
我知道我可以使用getTextContent()
获得"Hello world"
,但有一种方式来获得"Hello <b>world</b>"
?
在Java中,你可以申请一个XSLT转换:https://docs.oracle.com/javase/tutorial/jaxp/xslt/writingDom.html
你需要的是检索元素子树的XML内容。有在SO解决这个问题的几个问题: How to I output org.w3c.dom.Element to string format in java?
对不起,我有一个快速浏览一下API(我并不是一个真正的Java开发人员,所以我有没有真正的Java DOM库经验),我认为你也遇到了同样的问题。当您拥有DOM时,原始内容会丢失。 – Manngo
我是你的例子,你已经省略了__Hello__周围的空格。这是计划的一部分吗? – Manngo
不,让我编辑文本 –