2013-12-19 22 views
2

在java中,我试图读取一个网页。我只想打印页面的数据。但我的代码是打印整个HTML代码。它看起来很奇怪。我可以看到我希望它隐藏在html中的确切数据。我如何摆脱打印HTML代码? 这里是我的代码:如何从网页打印数据?不是页面的html代码。

URL url = new URL("http://www.rxbd.info/Controller/Controller?action=details&drug=zorubicin&group=generic"); 
URLConnection con = url.openConnection(); 
InputStream is =con.getInputStream(); 
BufferedReader br = new BufferedReader(new InputStreamReader(is)); 
String line = null; 
while ((line = br.readLine()) != null) { 
    System.out.println(line); 
} 
+2

看看JSoup –

回答

1

看一看JerichoRenderer类可以将原始HTML呈现为文本,TextExtractor类可以仅提取文本。