Q

jsoup提取所有标签之间的文本，除了一个类型的子标签

regex
jsoup

2017-02-26 28 views 0 likes

0

的我有这样jsoup提取所有标签之间的文本，除了一个类型的子标签

<p> 
    <i>One</i> - <i>Two</i> - ... <i>N</i> - 
    <tag1>hey</tag1> <tag2>there!</tag2> how are you? 
</p>

的HTML代码，我想有hey there! how are you?。

这是我设法到目前为止是：

Elements p = document.select("p"); 
List<Node> nodes = p.get(0).childNodes(); 
for (Node node : nodes){ 
    if (node.nodeName() != "i"){ 
     if (node.nodeName() != "#text"){ 
      System.out.print(((Element) node).text()); 
     } else { 
      System.out.print(node); 
     } 
    } 
}

这是我得到：

- - hey there! how are you?

在那之后，我计划用.replace()摆脱了“ - ”。

我想知道是否有更好的方法？

2017-02-26 NoSmile

+0

编辑版本的重要性在于要排除的文本元素的_all_前面有一个''标签。那是对的吗？ –

+0

要排除的文本元素都是“ smth - ”模式:) – NoSmile

+0

它只显示“there！”。没关系，我会留在我的方法，直到有一个改进:) – NoSmile

A
回答

0

如果布局肯定是给定的，那么这个变化可能会为你做的伎俩。测试<i>元素和它们后面的元素。

Element p = document.select("p"); List<Node> nodes = p.childNodes(); for (Node node : nodes){ if ((node.nodeName() != "i") && (node.previousSibling.nodeName() != "i")){ if (node.nodeName() != "#text"){ System.out.print(((Element) node).text()); }else{ System.out.print(node); } } }

来源

2017-02-26 09:54:16

+0

布局是不完全是这样的：一个 - 可以重复。（0,1,2或3次）因此我将修改我以前的帖子。但是我的问题更多，如果从jSoup有任何方法可以直接做到这一点？ – NoSmile

相关问题

1. JSoup-在标签之间获取文本

2. 提取标签之间的所有值

3. 提取标签之间的文本

4. 的Python：提取所有的子串在标签之间串

5. Jsoup：获取所有标题标签

6. jsoup：提取两个之间的标签<img>

7. Jsoup图像标签提取

8. Jsoup - 提取标签：命名空间

9. 获取html标签内/ html标签之间的所有内容

10. 两个标签之间的XQuery提取

11. Objective-C HTML解析。获取标签之间的所有文本

12. 提取两个html标签之间的文本

13. 硒，如何提取两个div标签之间的文本

14. 如何提取Perl中两个标签之间的文本？

15. 使用JSoup检索p标签之间的所有html

16. 在标签内获取文本，在另一个标签之后

17. 正则表达式提取标签之间的文本，但不是标签

18. jsoup从<a>标签中获取文本标签

19. 提取标签之间的CString

20. 提取标签之间的内容

21. 获取两个标签之间的所有内容，通过排除其中的一些标签

22. 如何获取两个标签之间的内容在jsoup/javascript

23. Jsoup - 标签本身内的文本XML

24. 的Python：除了在某些标签提取XML文本

25. 使用正则表达式在标签之间提取标签和文本

26. 提取在两个标签之间更改的所有文件或更改集

27. libgit2：查找两个标签之间的所有提交？

28. Jsoup错误地关闭一个标签，并把标签文本进行标记

29. Python字符串操作，提取html标签之间的文本

30. 从xml解析的html标签之间提取文本

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新问题

1. ReactJS：如何按顺序映射JSON元素并在点击时显示隐藏的div

2. 从PHP脚本登录到Docker Hub

3. Git失败，出现致命错误。无法读取用户名

4. 将BLE设备名称与字符串进行比较

5. VB.NET在更多的项目中使用相同的子类

6. 使用CABasicAnimation后，防止CAGradientLayer位置返回原始值

7. 使用分割获取图像的名称

8. 如何获得MS SQL Strored Procedure返回值在PHP中使用PDO？

9. 获得Oracle存储过程的参数

10. 获取网页

相关问题

1. JSoup-在标签之间获取文本

2. 提取标签之间的所有值

3. 提取标签之间的文本

4. 的Python：提取所有的子串在标签之间串

5. Jsoup：获取所有标题标签

6. jsoup：提取两个之间的标签<img>

7. Jsoup图像标签提取

8. Jsoup - 提取标签：命名空间

9. 获取html标签内/ html标签之间的所有内容

10. 两个标签之间的XQuery提取

联系我们

© 2020 UWENKU.COM

沪ICP备13005482号-4

简体中文

繁體中文

Русский

Deutsch

Español

हिन्दी

Italiano

日本語

한국어

Polski

Türkçe

Tiếng Việt

Française