2011-08-12 88 views
6

我怎样才能删除这些:如何从JSoup'文档'中删除非破坏空格?

<td>&nbsp;</td> 
从我JSoup '文件'

<td width="7%">&nbsp;</td> 

?我已经尝试了很多方法,但是这些不间断的空格字符与普通的JSoup表达式或选择器不匹配。

+1

是不是可以在IDE或文本编辑器(如Notepad ++)中打开文档并执行查找和替换?或者你的意思是你需要以编程的方式来做? – tw16

+0

JSoup是一个为应用程序解析获取的HTML数据的库。所以不,你提出的建议不但不可行,而且不适用。 :) –

+0

这是否适用于整个文档或仅在'​​'元素内?顺便说一下,您是否意识到MSIE浏览器在完全为空的“​​”元素中呈现问题?一个'​​ '是这个MSIE不端行为的经典解决方法。 – BalusC

回答

12

在Java中的HTML实体&nbsp;Unicode character NO-BREAK SPACE U+00A0)可以用字符\u00a0表示。假设你要删除所有元素其中包含字符作为自己的文本(因此不是每个线为你评论说),那么下面应该工作:

document.select(":containsOwn(\u00a0)").remove(); 

如果你真的意味着删除整个那么你最好的选择是真正的自己逐行扫描HTML。