0
我尝试提取页面的某些部分。我使用解析器HtmlCleaner,并删除所有标签。是否有一些设置可以保存所有的html标签?或者,也许是更好的方式来提取这部分代码,使用别的东西?htmlcleaner用标签解析
我的代码:
static final String XPATH_STATS = "//div[@class='text']/p/";
// config cleaner properties
HtmlCleaner htmlCleaner = new HtmlCleaner();
CleanerProperties props = htmlCleaner.getProperties();
props.setAllowHtmlInsideAttributes(false);
props.setAllowMultiWordAttributes(true);
props.setRecognizeUnicodeChars(true);
props.setOmitComments(true);
props.setTransSpecialEntitiesToNCR(true);
// create URL object
URL url = new URL(BLOG_URL);
// get HTML page root node
TagNode root = htmlCleaner.clean(url);
Object[] statsNode = root.evaluateXPath(XPATH_STATS);
for (Object tag : statsNode) {
stats = stats + tag.toString().trim();
}
return stats;
感谢nikhil.thakkar! 我是由JSON来完成的。 该代码可能有助于某人:
URL url2 = new URL(BLOG_URL);
Document doc2 = Jsoup.parse(url2, 3000);
Element masthead = doc2.select("div.main_text").first();
String linkOuterH = masthead.outerHtml();
谢谢!它运作良好。 – Volodymyr