1
当我从刮HTML或XML来提取文本的几个相关节点从节点加入所有文字,所有的文本连接成一个长字符串,使其无法恢复单个文本字符串。如何避免刮
例如:
require 'nokogiri'
doc = Nokogiri::HTML(<<EOT)
<html>
<body>
<p>foo</p>
<p>bar</p>
<p>baz</p>
</body>
</html>
EOT
doc.search('p').text # => "foobarbaz"
但我想要的是:
["foo", "bar", "baz"]
刮XML时,同样的情况:
doc = Nokogiri::XML(<<EOT)
<root>
<block>
<entries>foo</entries>
<entries>bar</entries>
<entries>baz</entries>
</block>
</root>
EOT
doc.search('entries').text # => "foobarbaz"
为什么会出现这种情况?如何避免它?