2012-12-28 56 views
0
</div><div class="tr"> 
    </div><div class="bl"> 
    </div><div class="br"> 
    </div> <img src="http://blablabla.com/medium/blablabla.jpg" /> 
</div></a> 
      </div><div class="meta"> 
<h3 class="action"> 
<span> 
    <a href="/abc">ABC</a> 
    </span> a picture 
</h3>   

我节省specifing链接保存网站的HTML源代码转换成字符串如下:搜索和在HTML代码

public static BufferedReader read(String url) throws Exception 
    { 
    return new BufferedReader(
     new InputStreamReader(
      new URL(url).openStream())); 
    } 

在这段代码我要保存所有图片的URL在一个新的String王氏concating \ n其中/medium/里面或使字符串中的所有图像链接变得更容易与\ n。 过程应该如何?在此先感谢

+0

我会使用正则表达式来查找网址。 – MrSmith42

回答

1

您可以使用JSoup获取图像标记并执行一个简单的String.contains来获取您正在查找的图像标记,而不是尝试自己解析HTML内容。

Document doc = Jsoup.connect("http://www.blah.com/foo.html"); 
for (Element e : doc.select("img")) { 
    String imageSrc = e.attr("src"); 
    if (imageSrc.contains("/medium/")) { 
    ... 
    } 
} 

avoid using regex to parse HTML

+0

应该为“Document doc = ..”导入哪一个:org.w3c.dom or org.jsoup.nodes?我想我必须注释Jsoup.conne ..到(文档) – Mustafa

+0

[org.jsoup.nodes.Document](http://jsoup.org/apidocs/org/jsoup/nodes/Document.html)... – Reimeus