这可能是一个愚蠢的问题,其答案显而易见......但我无法得到它。查看页面源代码vs HTTPURLConnection
我试图读取使用Java程序的网页srouce如下图所示:
URL url = new URL(urlValue);
HttpURLConnection urlc = (HttpURLConnection) url.openConnection();
BufferedInputStream buffer = new BufferedInputStream(urlc.getInputStream());
StringBuilder builder = new StringBuilder();
byte[] by = new byte[1024];
int byteRead;
while ((byteRead = buffer.read(by)) != -1){
builder.append(new String(by, 0, byteRead));
}
buffer.close();
这是所有工作正常,我可以看到网页的源文件... 当我打开在同一网址浏览器并右键单击它并查看页面源代码。 Java程序的页面源与我从浏览器中看到的不一样。
我只是想知道原因。 我错过了什么吗? 我该怎么做才能从java程序中得到完全相同的结果?
感谢, 伊尔凡
有什么不同?查看源代码显示浏览器在渲染过程中所做的更改,以及某些情况下脚本所做的更改,例如IE将剥离属性和正常化大小写的引号...... –