2011-09-27 58 views
0

我有一个代码片段是这样的:获取网页内容 - 浏览器不支持框架

webUrl = new URL(url); 
reader = new BufferedReader(new InputStreamReader(webUrl.openStream())); 

当我试图得到一些网页,我得到响应我的浏览器不支持框架的HTML内容。所以我没有得到页面的真正的HTML。 有没有解决方法? 也许告诉程序注册为某些浏览器?

对我来说,只有拿到html才是关键,那么我想解析它。

编辑:无法从浏览器中的HTML获取帧的src。它隐藏在js中。

回答

1

您必须在HTTP请求中设置用户代理字符串,以便服务器认为您支持框架。我建议像HtmlClient或HttpClient这样的东西。

3

“您不支持框架,我们没有在此放置明智的替代内容”消息将位于<noframes>元素中。您需要访问相应的<frame>元素,访问其src属性,解析其中的URI,然后从中获取数据。

+0

那么我不能罚款iframe标签的src属性。看起来我需要的内容是在框架之外。