2017-07-11 49 views
0

如果不使用任何外部库,将网站HTML内容获取到字符串中的最简单方法是什么?我曾尝试过,但我得到了完整的页面源,但我只想要HTML内容。如何仅获取Java中页面的HTML内容?

+2

如果JavaScript和css(etc ...)嵌入在页面中,除了手动提取它之外没有其他办法。 –

+0

网站上的Javascript可能与主HTML内容存储在相同的文本文件中。如果是这样的话,那么你只能强有力地修剪文本,就像@SteveSmith所说的那样。 –

+0

如何通过代码手动提取 –

回答

0

我觉得有点难以实现这个我的朋友没有使用外部库。

你实际上想要执行Html的JavaScript部分,并且像一个无GUI界面的web浏览器programmaticaly。

如果你要使用外部库,我会去http://htmlunit.sourceforge.net/这很容易。

-1
String content = null; 
URLConnection connection = null; 
try { 
    connection = new URL("http://www.google.com").openConnection(); 
    Scanner scanner = new Scanner(connection.getInputStream()); 
    scanner.useDelimiter("\\Z"); 
    content = scanner.next(); 
}catch (Exception ex) { 
    ex.printStackTrace(); 
} 
System.out.println(content); 
+1

我曾试过这个也会给出完整的页面源码 –

+0

上面的解决方案只下载未编译的源代码而不是生成的。 –