如何仅获取Java中页面的HTML内容？

如果不使用任何外部库，将网站HTML内容获取到字符串中的最简单方法是什么？我曾尝试过，但我得到了完整的页面源，但我只想要HTML内容。如何仅获取Java中页面的HTML内容？

来源

2017-07-11 Ramanand Jha

如果JavaScript和css（etc ...）嵌入在页面中，除了手动提取它之外没有其他办法。 –

网站上的Javascript可能与主HTML内容存储在相同的文本文件中。如果是这样的话，那么你只能强有力地修剪文本，就像@SteveSmith所说的那样。 –

如何通过代码手动提取 –

我觉得有点难以实现这个我的朋友没有使用外部库。

你实际上想要执行Html的JavaScript部分，并且像一个无GUI界面的web浏览器programmaticaly。

如果你要使用外部库，我会去http://htmlunit.sourceforge.net/这很容易。

来源

2017-07-11 12:03:01

-1

String content = null; 
URLConnection connection = null; 
try { 
    connection = new URL("http://www.google.com").openConnection(); 
    Scanner scanner = new Scanner(connection.getInputStream()); 
    scanner.useDelimiter("\\Z"); 
    content = scanner.next(); 
}catch (Exception ex) { 
    ex.printStackTrace(); 
} 
System.out.println(content);

来源

2017-07-11 12:28:56

我曾试过这个也会给出完整的页面源码 –

上面的解决方案只下载未编译的源代码而不是生成的。 –

如何仅获取Java中页面的HTML内容？

回答

相关问题