2013-05-19 54 views
0

我尝试提取页面的某些部分。我使用解析器HtmlCleaner,并删除所有标签。是否有一些设置可以保存所有的html标签?或者,也许是更好的方式来提取这部分代码,使用别的东西?htmlcleaner用标签解析

我的代码:

static final String XPATH_STATS = "//div[@class='text']/p/"; 

// config cleaner properties 
HtmlCleaner htmlCleaner = new HtmlCleaner(); 
CleanerProperties props = htmlCleaner.getProperties(); 
props.setAllowHtmlInsideAttributes(false); 
props.setAllowMultiWordAttributes(true); 
props.setRecognizeUnicodeChars(true); 
props.setOmitComments(true); 
props.setTransSpecialEntitiesToNCR(true); 


// create URL object 
URL url = new URL(BLOG_URL); 
// get HTML page root node 
TagNode root = htmlCleaner.clean(url); 


Object[] statsNode = root.evaluateXPath(XPATH_STATS); 
for (Object tag : statsNode) { 
    stats = stats + tag.toString().trim(); 
} 

return stats; 

感谢nikhil.thakkar! 我是由JSON来完成的。 该代码可能有助于某人:

URL url2 = new URL(BLOG_URL); 
    Document doc2 = Jsoup.parse(url2, 3000); 
    Element masthead = doc2.select("div.main_text").first(); 
    String linkOuterH = masthead.outerHtml(); 

回答