2014-07-03 71 views
0

我试图从HTML文档获取文本获取文本的HTML标签之后后显示结果

<p> 
    <b>1</b>First Text 
    <b>2</b><br>Second Text 
    <b>3</b>Third Text 
    . 
    . 
    . 
    . 
</p> 

线3号是哪里的东西卡住

试着用下面的代码,但出现错误。

Elements elements = doc.body().select("p").select("b"); 
    for(int i=0; i<elements.size(); i++) 
{ 
     Element val = elements.get(i); 

    if ((val.nextSibling().toString().trim()).equals("")) 
     System.out.println(val.nextSibling().toString().select("br").first().text()+"\n"); 
    else 
     System.out.println(val.nextSibling().toString()+"\n"); 

    } 

回答

0

这个问题不清楚,但似乎(从标题),您只需要在<br><b>的外面的文字。为此,您可以使用ownText()

Elements elements = doc.select("p"); 
for(Element p: elements) { 
    System.out.println(p.ownText()); // Prints text that is in <p> but not in <b> 
} 
+1

您好,菲菲,感谢您的回答。对不清楚的问题抱歉。我希望将标记中的每个元素和接近的文本存储在一个2d数组中。但我的代码片段的问题是当它遇到
未封闭标签。发生了错误。但我昨天找到了一个解决方案。发现异常并使用.nextSibling()。nextSibling()和我的工作完成。 – Roshan

相关问题