2014-03-06 52 views
-1

我从html页面提取数据,然后解析包含这样标签的标签,现在我尝试了像提取子字符串等不同的方法,只提取标题和href标签。但它不工作......任何人都可以帮助我。这是我的输出使用java从html标记中提取内容

我的代码

 doc = Jsoup.connect("myurl").get(); 

    Elements link = doc.select("a[href]"); 
    String stringLink = null; 
    for (int i = 0; i < link.size(); i++) 
    { 

     stringLink = link.toString(); 
     System.out.println(stringLink); 
    } 

输出

<a class="link" title="Waf Ad" href="https://www.facebook.com/waf.ad.54" 
data- jsid="anchor" target="_blank"><img class="_s0 _rw img" src="https: 
//fbcdn-profile-a.akamaihd.net/hprofile-ak-ash1/t5/186729_100007938933785_ 
508764241_q.jpg" alt="Waf Ad" data-jsid="img" /></a> 
<a class="link" title="Ana Ga" href="https://www.facebook.com/ata.ga.31392410" 
data-jsid="anchor" target="_blank"><img class="_s0 _rw img" src="https:// 
fbcdn-profile-a.akamaihd.net/hprofile-ak-ash1/t5/186901_100002334679352_ 
162381693_q.jpg" alt="Ana Ga" data-jsid="img" /></a> 
+1

代码片段提取选择性内容使用jsoup也将有所帮助(它的标签在jsoup下) – PopoFibo

+0

@PopoFibo我试过了..但它不工作我怎么才能得到只有标题内容和href内容 – chopu

+1

即使如此,显示你的努力(即你的代码)表示赞赏,即使这种努力没有成果 – fge

回答

3

获得页面的标题,您可以使用

Document doc = Jsoup.connect("myurl").get(); 
String title = doc.title(); 

对于从不同的HREFs获得单个链接,你可以使用这个

Elements links = doc.select("a[href]"); 
for(Element ele : links) { 
    System.out.println(ele.attr("href").toString()); 
} 

attr()方法将给定标签中匹配归因的内容加到其中。

+0

对不起,没有在标签中看到标题。为此,正如@ashatte建议的那样,可以使用'attr(“title”)'从单个标签中获取它。 – Rakesh

+0

感谢rakesh我越来越href的 – lulu