可能重复:
Java: How to decode HTML character entities in Java like HttpUtility.HtmlDecode?如何使用Java解码html代码?
我需要提取从html
文件的段落(如在StackOverflow上title
)。
我可以在Java中使用正则表达式来提取我需要的字段,但我必须获得decode
字段。
例
字段中提取:解码后
Paging Lucene's search results (with **;** among **'** and **s**)
领域:
Paging Lucene's search results
是否有任何的java类,让我对这些HTML代码的转换?
您是否包含HTML标记? –
是的,但提取的字段不包含标签 – user
对于初学者,[使用正则表达式来解析HTML](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-包含标签)是完全错误的第一位。只需像Jsoup一样使用[HTML解析器](http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers)。一个体面的人会马上为你隐藏HTML。 – BalusC