1
我想下载许多网页的源代码,然后写入该文件并在NetBeans控制台中打印出来。我遇到了编码问题。首先检查我的代码了:Java获取正确编码的URL
public static final void foo(URL url, Charset endoding, String file) {
BufferedReader in;
String readLine;
try
{
in = new BufferedReader(new InputStreamReader(url.openStream(), encoding));
BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file) , encoding));
while ((readLine = in.readLine()) != null) {
System.out.println(readLine+"\n");
out.write(readLine+"\n");
}
out.flush();
out.close();
}
}
我2个国外网站(前捷克和泰国)
我试图Charset.forName测试这个(“UTF-8”),似乎正常工作的泰国的网页,但实际上为捷克的网页没有。控制台和文件包含诸如question的问号。
我也曾尝试ISO-8859-2,即正确保存的文件,但控制台显示小矩形而非字母Z,š等。
确实存在多语言网站的任何通用的解决方案(如捷克,日本,泰国和更多..),我可以保存到正确的文件一样打印控制台或保存到变量?
我很抱歉...网站的编码说UTF-8不起作用..与问号和正方形而不是适当的字符问题仍然存在。 –
恩,好吧,我真的不知道该怎么办。你能给我你的网站Urlacher失败吗? – GamerGurke15