2011-07-04 161 views
4

我再次遇到问题,我无法找到源代码,因为它的隐藏或某事...当我的Java程序索引页面时,它发现一切,但我需要的信息...我假设它隐藏的原因,但无论如何围绕此?Java从网站获取源代码

它只是一堆在萤火虫出现,但不显示查看页面源代码时,或当我做下面

URL url = new URL("my url"); 
      URLConnection yc = url.openConnection(); 
      BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream())); 
      String inputLine; 
      while ((inputLine = in.readLine()) != null) { 

我真的不知道TR/TD标签如何尝试获得信息,我需要...

回答

3

这种行为的原因是因为可能这些标签动态注入DOM使用JavaScript,不是最初的HTML的一部分,这是你可以用URLConnection获取。他们甚至可能使用AJAX创建。如果您想要获取这些内容,您需要在服务器上使用JavaScript解释器。

0

如果它们没有显示在页面源代码中,它们可能是通过Javascript代码动态添加的。没有办法从你的服务器端脚本中获得它们,但缺少一个JavaScript解释器,这个开销很大。

虽然标签中的信息可能来自某处。为什么不跟踪它,并从那里直接抓住它?

+0

有趣......我怎么会去寻找那个下来? –

+0

@Jon,安装Firefox的FireBug,激活它并加载页面;然后切换到FireBugs的网络模式以查看所有生成的流量以及JavaScript生成的事件。 –

0

尝试使用Jsoup。

Document doc = doc=Jsoup.parse("http:\\",10000); 
System.out.print(doc.toString()); 
+0

已经有...没有工作 –