如何使用JSoup获取页面中的所有url图像？

我使用JSoup来抓取页面。我通常需要在页面或页面中获取所有网址的图片，然后放入ArrayList<String>。 Suposed后续文件：如何使用JSoup获取页面中的所有url图像？

<!DOCTYPE html> 
<html> 
    <head> 
    <meta charset="utf-8"> 
    <title>News Page</title> 
    </head> 
    <body> 
    <div class="news"> 
     <div class="new"> 
     <div class="image"> 
      <img src="../images/img01.jpg" /> 
     </div> 
     <div class="info"> 
      <p class="title"> 
      Grumpy wizards make toxic brew for the evil Queen and Jack. 
      </p> 
     </div> 
     </div> 
     <div class="new"> 
     <div class="image"> 
      <img src="../images/img02.jpg" /> 
     </div> 
     <div class="info"> 
      <p class="title"> 
      The quick brown fox jumps over the lazy dog. 
      </p> 
     </div> 
     </div> 
     <div class="new"> 
     <div class="image"> 
      <img src="../images/img03.jpg" /> 
     </div> 
     <div class="info"> 
      <p class="title"> 
      Pack my box with five dozen liquor jugs. 
      </p> 
     </div> 
     </div> 
    </div> 
    </body> 
</html>

我做的是这样的：

Document document = Jsoup.parse(html); 
Elements images = document.select(img); 

ArrayList<String> binaryUrls = new ArrayList<String>(); 
for(Element image : images) { 
    binaryUrls.add(image.absUrl("src")); 
}

而结果：

['http//www.newssite.com/images/img01.jpg', 'http//www.newssite.com/images/img02.jpg', 'http//www.newssite.com/images/img03.jpg']

它的工作原理，但我想知道是否存在一小段路，只需要Jsoup就可以做到。

在生产环境中，我们还使用了Java 6。如果可能的话，我喜欢用lambda来了解Java 6模式和Java 8模式。

来源

2015-09-16 CristinaSilvaEng

对Java6没有任何建议。

在Java中8使用lambda：

ArrayList<String> binaryUrls = Jsoup.parse(html).select("img") 
    .stream().map(p -> p.absUrl("src")) 
    .collect(Collectors.toCollection(ArrayList::new));

或者，如果返回类型可以只是List<String>：

List<String> binaryUrls = Jsoup.parse(html).select("img") 
    .stream().map(p -> p.absUrl("src")) 
    .collect(Collectors.toList());

来源

2015-09-17 02:18:24

如何使用JSoup获取页面中的所有url图像？

回答

相关问题