Java从网站获取源代码

我再次遇到问题，我无法找到源代码，因为它的隐藏或某事...当我的Java程序索引页面时，它发现一切，但我需要的信息...我假设它隐藏的原因，但无论如何围绕此？Java从网站获取源代码

它只是一堆在萤火虫出现，但不显示查看页面源代码时，或当我做下面

URL url = new URL("my url"); 
      URLConnection yc = url.openConnection(); 
      BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream())); 
      String inputLine; 
      while ((inputLine = in.readLine()) != null) {

我真的不知道TR/TD标签如何尝试获得信息，我需要...

来源

2011-07-04 Jon Storm

这种行为的原因是因为可能这些标签动态注入DOM使用JavaScript，不是最初的HTML的一部分，这是你可以用URLConnection获取。他们甚至可能使用AJAX创建。如果您想要获取这些内容，您需要在服务器上使用JavaScript解释器。

来源

2011-07-04 06:06:42

如果它们没有显示在页面源代码中，它们可能是通过Javascript代码动态添加的。没有办法从你的服务器端脚本中获得它们，但缺少一个JavaScript解释器，这个开销很大。

虽然标签中的信息可能来自某处。为什么不跟踪它，并从那里直接抓住它？

来源

2011-07-04 06:07:11

有趣......我怎么会去寻找那个下来？ –

@Jon，安装Firefox的FireBug，激活它并加载页面;然后切换到FireBugs的网络模式以查看所有生成的流量以及JavaScript生成的事件。 –

尝试使用Jsoup。

Document doc = doc=Jsoup.parse("http:\\",10000); 
System.out.print(doc.toString());

来源

2011-07-04 06:16:52 Rasel

已经有...没有工作 –

假设的问题是，“丢失”的内容正在使用JavaScript注入，下面的SO问题是中肯：

What's a good tool to screen-scrape with Javascript support?

来源

2011-07-04 06:29:26

Java从网站获取源代码

回答

相关问题