2012-02-19 45 views
1

我知道你可能认为这个问题很愚蠢,但我需要使用HtmlUnit。但是,它以XML或文本形式返回页面。如何使用HtmlUnit获得HTML页面

我也不怎么得到纯HTML(相同的源代码浏览器返回)

我需要这个,因为我需要使用一些编写的模块。有任何想法吗?

+0

先生。 Vai询问你是否可以“提供使用HTMLUNIT提取网页的完整代码” – 2013-02-17 18:33:16

+0

我有保存问题,你能帮助我吗? http://stackoverflow.com/questions/20781322/java-program-to-read-a-html-page-and-save-its-content-use-javascript – user3136059 2013-12-26 10:52:39

回答

12

您可以使用下面的代码来实现自己的目标:

WebClient webClient = new WebClient(); 
Page page = webClient.getPage("http://example.com"); 
WebResponse response = page.getWebResponse(); 
String content = response.getContentAsString(); 

javadocs of the WebResponse.html#getContentAsString() method

+1

谢谢! :)我在看到您的评论之前就发现了它! – 2012-02-19 23:56:25

+1

但有一个问题,它不显示标签中的文本! – 2012-02-19 23:57:12

+1

webClient.getOptions()。setJavaScriptEnabled(true) - 添加此项 – 2017-04-09 04:24:26

相关问题