2010-06-01 50 views
0

是否有任何库或方法来输入一个字符串与HTML代码,并有一个返回值另一个字符串没有这个HTML代码,只是信息?
我正在看图书馆,如JTidy,或HtmlParser,但我不知道如何使用它! 更容易?Html代码清除器

+0

在什么语言? – 2010-06-01 09:43:58

+1

请更正所有的错字。很难阅读 – 2010-06-01 09:46:28

+0

在java中,很抱歉。 – Blanca 2010-06-01 09:49:47

回答

0

这将删除给定字符串中的所有HTML标记。

String html = //... 
html = html.replaceAll("</?.*?>", ""); 

但是,如果你正在寻找屏幕刮,你可以使用XPath拉出HTML的特定部分:

StreamSource source = new StreamSource(new StringReader(html)); 
DOMResult result = new DOMResult(); 
Transformer transformer = TransformerFactory.newInstance().newTransformer(); 
transformer.transform(source, result); 
Node root = result.getNode(); 

XPath xpath = XPathFactory.newInstance().newXPath(); 

String value = xpath.evaluate("/the/xpath/expression", root);