如何使用Java下载受保护的网页

我们有一项任务，设计一个可以下载任何网页源代码的类。但是，当我尝试测试我的代码并获取像http://anidb.net/perl-bin/animedb.pl?show=main这样的页面时 - 没有任何工作。如何使用Java下载受保护的网页

像这样的标准代码失败：

import java.net.*; 
import java.io.*; 

public class URLReader { 
    public static void main(String[] args) throws Exception { 
     URL link = new URL("http://www.anidb.net/"); 
     BufferedReader in = new BufferedReader(
     new InputStreamReader(link.openStream())); 

     String inputLine; 
     while ((inputLine = in.readLine()) != null) 
      System.out.println(inputLine); 
     in.close(); 
    } 
}

这是我得到的结果是：

&#352;wq>&#178;"¦§5&#180;_&#239;__&#199;U&#186;=&#244;&#217;&#246;?k&#352;}~“bd`?l“&#207;&#231;z&#162;&#199;&#234;&#245;>_"?j&#215;‰R“y}K&#184;\&#204;c_DL&#217;&#170;&#207;_ 
    –&#243;Mm_&#188;_0”•&#246;°&#203;C_a&#237;&#189;s&#238;¤&#236;&#193;S ‚>dC0&#236;s_–y&#185;&#241;±&#207;&#221;&#220;A&#248;%&#200;_&#228;&#214;&#225;__&#230;©[email protected],4x„&#352;¶_&#235;&#201;&#402;?

我已经尝试了一切：饼干，头文件，但似乎没有任何工作。如果你对我有一些暗示，我会很感激。

来源

2012-09-22 nikopol86

看起来压缩。 –

无论如何，这并不会考虑字符编码。使用图书馆。 – artbristol

写一个http客户端，你必须考虑gzip编码和分块传输。最好使用库来下载网页。

尝试是这样的： http://code.google.com/p/google-http-java-client/

来源

2012-09-22 08:54:12

你在你的问题中提到的网站似乎并没有兑现“Accept`请求头，也没有他们被设置‘正确内容编码’响应头，这我认为是不正确的。

不管怎么说，你也可以使用java.util.zip.GZipInputStream阅读纯文本格式的响应：

public static void main(String[] args) throws Exception 
{ 
    URL link = new URL("http://www.anidb.net/"); 
    HttpURLConnection con = (HttpURLConnection) link.openConnection(); 

    GZIPInputStream in = new GZIPInputStream(con.getInputStream()); 
    byte[] b = new byte[1024]; 
    StringBuilder content = new StringBuilder(); 
    while (in.read(b) > 0) 
    { 
     content.append(new String(b)); 
    } 
    System.out.println(content); 
}

来源

2012-09-22 09:00:40 Vikdor

这都是关于gzip的。我应该使用java.util.zip.GZIPInputStream。谢谢。 – nikopol86

如何使用Java下载受保护的网页

回答

相关问题