2013-05-10 69 views
2

我正在开发一些实用程序,它将不得不遍历HTML文件集并对其进行处理。有没有办法使用JSoup操作部分HTML页面

JSoup在解析和操作完成的文件方面表现出色(即他们有<html> ... </html>标签)。

不过,对于部分页面,即其伤口包含标记一样的页面,

<div id="leftnav">...</div> 

它解析正确,但是当doc.toString()doc.outerHtml()被调用,它返回完整的HTML(它包装在<html> <body> ... </body> </html>标签部分HTML内容)

这对我来说是一个问题,你能否让我知道如果这样的API在JSoup中不存在以这种方式清理/清除HTML内容?

谢谢。

回答

3

可以使用Xml Parser

创建一个新的XML解析器。此解析器假定不知道传入标记,并且不将其视为HTML,而是直接从输入创建一个简单的 树。

换句话说:它不会创建典型的html结构(html,body,head等),并按照原样输入您的输入。

下面是如何使用它:

// Using connect() 
Document doc = Jsoup.connect("<url>").parser(Parser.xmlParser()).get(); 

// Using parse() 
Document doc = Jsoup.parse("<html>", "<base url>", Parser.xmlParser()); 
+1

谢谢OLLO,这是需要什么! – jatanp 2013-05-11 06:03:36

相关问题