2015-05-10 63 views
-3

我是新来的刮。我正在尝试使用JSOUP从网站上抓取数据。我想从<div><span><p>等标签中抓取数据。有人可以告诉我如何做到这一点?用JSOUP刮网

+3

请告诉我们,到目前为止您已经尝试过,SO不是神奇地获取代码的地方。 – Zhedar

+1

http://jsoup.org/cookbook/ –

+0

我刚做了一个新项目,并添加了一个jsoup jar文件并建立了连接。我其实是新来的。我想要取消驻留在不同标签中的数据,如上所示。 plzzz帮助我 –

回答

1

检查this。一个基本的例子:

import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
import org.jsoup.select.Elements; 

public class Test { 

    public static void main(String[] args) throws Exception { 
     String url = "https://stackoverflow.com/questions/2835505"; 
     Document document = Jsoup.connect(url).get(); 

     String text = document.select("div").first().text(); 
     System.out.println(text); 

     Elements links = document.select("a"); 
     for (Element link : links) { 
      System.out.println(link.attr("href")); 
     } 
    } 

} 

这将首先打印页上的第一div的文本,然后打印出网页上的所有链接(a)的所有URL。


为了获得股利的具体类,请Elements elements = document.select("div.someclass")

要与特定的id来获取申报单,做Elements elements = document.select("div#someclass")

如果你想通过所有选定的元素,这样做:

for (Element e:elements) { 
    System.out.println(e.text()); 
    //you can also do other things. 
} 
+0

感谢JonasCz亲爱的这是关于其他div和div与特定的类名和ID –

+0

@MuhammadWaqas,我已经更新了答案。 – JonasCz

+0

JonasCz谢谢你...... –