3
场景:我使用Apache Tika
从DOCX
文件获得XHTML
。我需要解析此XHTML
以在特定标记(例如div或p标记)之间获取文本。为此,我使用Jsoup
在标签之间获取文本。JSoup-在标签之间获取文本
问题:本来XHTML
有这样的文字:
some text [tab-space][tab-space] other text.
但随着Jsoup
我得到这个:
some text other text.
所以标签空间失踪,但我需要获取文本因为它包括tag-spaces
。是否有可能使用Jsoup
或者是否有其他Java
库这样做?
感谢....它的工作原理正是我想要的:-) –