2014-11-25 98 views
0

我想从使用jsoup的网页中提取内容。值在内部标签中如何提取这些值?使用jsoup从Div标签的内部标签获取属性值

例如

< div id="tfm_skyscraper" class="top_right_skyscraper"></div> 
    <nav class="main group"> 
    <section class="verticals world group" data-beacon="{&quot;p&quot"> 
    <ul class="verticals-ul"> 
     <li class="front-page toplevel" data-beacon="{&quot"> 
     <a class="toplevel-a" href="http://www.huffingtonpost.com" title="Home" tabindex="1" sl-processed="1">FRONT PAGE</a>* 

     </li>       
    </ul> 
</section> 
</nav> 

我想在锚标记的内容解压头版 *将如何做到这一点?

回答

0

这将使用jsoup 标记值都喜欢 头版政治企业娱乐媒体等 可以ü打印所有链接标记的与类文本toplevel-a

import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
import org.jsoup.select.Elements; 

public class Main { 

    public static void main(String[] args) throws Exception { 
     String html = "<div id=\"tfm_skyscraper\" class=\"top_right_skyscraper\"></div>" + 
          "<nav class=\"main group\">" + 
           "<section class=\"verticals world group\" data-beacon=\"{&quot;p&quot\">" + 
            "<ul class=\"verticals-ul\">" + 
             "<li class=\"front-page toplevel\" data-beacon=\"{&quot\">" + 
              "<a class=\"toplevel-a\" href=\"http://www.huffingtonpost.com\" title=\"Home\" tabindex=\"1\" sl-processed=\"1\">FRONT PAGE</a>*" + 
             "</li>" +       
            "</ul>" + 
           "</section>" + 
          "</nav>"; 

     Document doc = Jsoup.parse(html); 
     Elements els = doc.select("a.toplevel-a"); 
     for(Element el : els) { 
      System.out.println(el.text()); 
     } 
    } 
} 
+0

我可以直接从URL中提取值请清除我的dobut? 我试试这种方式,这是正确的,我只有一个标签值 例如: Document doc; doc = Jsoup.connect(“http://www.huffingtonpost.com/2014/11/23/israel-new-laws_n_6207042.html#comments”).get(); 元素linktag = doc.select(“ul.verticals-ul”)。select(“li”)。select(“a.toplevel-a”); \t \t迭代器 itrlinktag = linktag.iterator(); (itrlinktag.hasNext()){ System.out.print(itrlinktag.next()。text()); } – spk 2014-11-27 06:36:04

+0

对不起,但我不明白你的问题。 – alkis 2014-11-27 21:48:49

+0

我的问题是您将每个标记转换为字符串后提取值。与转换标签到字符串提取的值是可能的? – spk 2014-11-28 14:28:06