有没有办法使用JSoup操作部分HTML页面

我正在开发一些实用程序，它将不得不遍历HTML文件集并对其进行处理。有没有办法使用JSoup操作部分HTML页面

JSoup在解析和操作完成的文件方面表现出色（即他们有<html> ... </html>标签）。

不过，对于部分页面，即其伤口包含标记一样的页面，

<div id="leftnav">...</div>

它解析正确，但是当doc.toString()或doc.outerHtml()被调用，它返回完整的HTML（它包装在<html> <body> ... </body> </html>标签部分HTML内容）

这对我来说是一个问题，你能否让我知道如果这样的API在JSoup中不存在以这种方式清理/清除HTML内容？

谢谢。

来源

2013-05-10 jatanp

可以使用Xml Parser：

创建一个新的XML解析器。此解析器假定不知道传入标记，并且不将其视为HTML，而是直接从输入创建一个简单的树。

换句话说：它不会创建典型的html结构（html，body，head等），并按照原样输入您的输入。

下面是如何使用它：

// Using connect() 
Document doc = Jsoup.connect("<url>").parser(Parser.xmlParser()).get(); 

// Using parse() 
Document doc = Jsoup.parse("<html>", "<base url>", Parser.xmlParser());

来源

2013-05-10 15:13:07 ollo

谢谢OLLO，这是需要什么！ – jatanp 2013-05-11 06:03:36

有没有办法使用JSoup操作部分HTML页面

回答

相关问题