htmlcleaner用标签解析

我尝试提取页面的某些部分。我使用解析器HtmlCleaner，并删除所有标签。是否有一些设置可以保存所有的html标签？或者，也许是更好的方式来提取这部分代码，使用别的东西？htmlcleaner用标签解析

我的代码：

static final String XPATH_STATS = "//div[@class='text']/p/"; 

// config cleaner properties 
HtmlCleaner htmlCleaner = new HtmlCleaner(); 
CleanerProperties props = htmlCleaner.getProperties(); 
props.setAllowHtmlInsideAttributes(false); 
props.setAllowMultiWordAttributes(true); 
props.setRecognizeUnicodeChars(true); 
props.setOmitComments(true); 
props.setTransSpecialEntitiesToNCR(true); 


// create URL object 
URL url = new URL(BLOG_URL); 
// get HTML page root node 
TagNode root = htmlCleaner.clean(url); 


Object[] statsNode = root.evaluateXPath(XPATH_STATS); 
for (Object tag : statsNode) { 
    stats = stats + tag.toString().trim(); 
} 

return stats;

感谢nikhil.thakkar！我是由JSON来完成的。该代码可能有助于某人：

URL url2 = new URL(BLOG_URL); 
    Document doc2 = Jsoup.parse(url2, 3000); 
    Element masthead = doc2.select("div.main_text").first(); 
    String linkOuterH = masthead.outerHtml();

来源

2013-05-19 Volodymyr

您可以使用jSoup解析器。更多的信息：http://jsoup.org/

来源

2013-05-19 21:59:12

谢谢！它运作良好。 – Volodymyr

htmlcleaner用标签解析

回答

相关问题