我必须使用Document doc =jsoup.connect(someUrl).get()
和Elements body=doc.select("div.chapter")
删除HTML实体及其内容
String myHtml = "
<div class="chapter">
<h1>Hello this is my example</h1>
<p>This is paragraph one</p>
<p>This is paragraph two <sup class="num">Nuisance 1</sup><span class="notes">Nuisance 2</span></p>
<p>This is paragraph three</p>
</div>"
我想删除<sup> </sup>
和<span> <\span>
他们与JSOUP内容中提取HTML片段。我读过使用正则表达式语法是一个坏主意。大多数的例子和答案都解决了这个问题,以去除标签并保留内容。我想获得的是:
String newHtml = "
<div class="chapter">
<h1>Hello this is my example</h1>
<p>This is paragraph one</p>
<p>This is paragraph two</p>
<p>This is paragraph three</p>
</div>"
我已经使用JSOUP没有满意的结果(它使SUP和SPAN实体/标签)。
'not'去除未在指定的选择返回元素查询。它不会*进入*到每个元素。 –
请给我们一些努力! – Niranjan