2012-10-20 316 views
7

我试图用Jsoup解析一个html文档来获取所有标题标签。此外,我需要将标题标签分组为[h1] [h2]等...Jsoup:获取所有标题标签

 hh = doc.select("h[0-6]"); 

但是这给了我一个空的数组。

回答

19

你的选择器意味着带有属性“0-6”的h-Tag这里 - 不是正则表达式。但是,您可以结合使用多个选择器:hh = doc.select("h0, h1, h2, h3, h4, h5, h6");

分组:您是否需要一组h1标签+每个h1,h2,...标签或每个h1,h2,...标签的组?

下面是一个例子你如何能做到这一点:

// Group of all h-Tags 
Elements hTags = doc.select("h1, h2, h3, h4, h5, h6"); 

// Group of all h1-Tags 
Elements h1Tags = hTags.select("h1"); 
// Group of all h2-Tags 
Elements h2Tags = hTags.select("h2"); 
// ... etc. 

如果你想为每个H1组,H2,...标签则可以删除第一选择,并与其他doc更换hTags

+0

中查看您可以使用select语句做的各种事情完美地工作,非常感谢! – Tropicalista

+0

太棒了! :-)但是,如果它有效,请将线程标记为已解决。 – ollo