搜索和在HTML代码

</div><div class="tr"> 
    </div><div class="bl"> 
    </div><div class="br"> 
    </div> <img src="http://blablabla.com/medium/blablabla.jpg" /> 
</div></a> 
      </div><div class="meta"> 
<h3 class="action"> 
<span> 
    <a href="/abc">ABC</a> 
    </span> a picture 
</h3>

我节省specifing链接保存网站的HTML源代码转换成字符串如下：搜索和在HTML代码

public static BufferedReader read(String url) throws Exception 
    { 
    return new BufferedReader(
     new InputStreamReader(
      new URL(url).openStream())); 
    }

在这段代码我要保存所有图片的URL在一个新的String王氏concating \ n其中/medium/里面或使字符串中的所有图像链接变得更容易与\ n。过程应该如何？在此先感谢

来源

2012-12-28 Mustafa

我会使用正则表达式来查找网址。 – MrSmith42

您可以使用JSoup获取图像标记并执行一个简单的String.contains来获取您正在查找的图像标记，而不是尝试自己解析HTML内容。

Document doc = Jsoup.connect("http://www.blah.com/foo.html"); 
for (Element e : doc.select("img")) { 
    String imageSrc = e.attr("src"); 
    if (imageSrc.contains("/medium/")) { 
    ... 
    } 
}

还avoid using regex to parse HTML。

来源

2012-12-28 22:40:55 Reimeus

应该为“Document doc = ..”导入哪一个：org.w3c.dom or org.jsoup.nodes？我想我必须注释Jsoup.conne ..到（文档） – Mustafa

[org.jsoup.nodes.Document]（http://jsoup.org/apidocs/org/jsoup/nodes/Document.html）... – Reimeus

搜索和在HTML代码

回答

相关问题