从Nokogiri::XML::DocumentFragment
中删除所有标签的简单方法是什么?只保留空格分隔的文本?如何将HTML标记转换为纯文本?
我想改造:
Hello<br>My name is McOmghall
到:
Hello My name is McOmghall
我的解决办法是:
Nokogiri::XML.fragment(html_text).children.to_a.flatten.select { |node| node.class == Nokogiri::XML::Text}
,然后串联数组将每个元素之间的空间,但我认为它不是最理想的,也不是很清楚。
编辑:
这是我的最终解决方案:
Nokogiri::XML.fragment(html_text).xpath('.//text()').map(&:text).join(' ')
是否要替换原有文档或仅输出所提到的格式?这是一个混乱.. –
只有输出,但我不介意修改原来的。 –