代码：

@doc   = File.open(xml_file) { |f| Nokogiri::XML(f) } 
data   = Hash.from_xml(@doc.to_s)

XML文件

<blah> 
    <tag> 
    <name>My Name</name> 
    <url>www.url.com</url> 
    <file>myfile.zip</file> 
    <description>Today is a <a href="www.sunny.com">sunny</a></description> 
</tag> 
    <tag> 
    <name>Someones Name</name> 
    <url>www.url2.com</url> 
    <file>myfile2.zip</file> 
    <description>Today is a <a href="www.rainy.com">rainy</a></description> 
</tag> 
</blah>

来源

2017-09-29 user3771782

为什么你需要Nokogiri在这里？为什么不'Hash.from_xml（File.open（xml_file）.read）'？ – chumakoff

但是不会去掉锚标签吗？有没有办法保持锚标签？ – user3771782

我现在看到的唯一方法是在整个文档中逃脱里面<description> HTML，然后执行Hash#from_xml：

doc = File.open(xml_file) { |f| Nokogiri::XML(f) } 

# escape HTML inside <description> 
doc.css("description").each do |node| 
    node.inner_html = CGI.escapeHTML(node.inner_html) 
end 

data = Hash.from_xml(doc.to_s) # => 

# {"blah"=> 
# { 
#  "tag"=>[ 
#  { 
#   "name"=>"My Name", 
#   "url"=>"www.url.com", 
#   "file"=>"myfile.zip", 
#   "description"=>"Today is a <a href=\"www.sunny.com\">sunny</a>" 
#  }, 
#  { 
#   "name"=>"Someones Name", 
#   "url"=>"www.url2.com", 
#   "file"=>"myfile2.zip", 
#   "description"=>"Today is a <a href=\"www.rainy.com\">rainy</a>" 
#  } 
#  ] 
# } 
# }

Nokogiri在这里仅用于HTML转义。如果你找到另一种逃避方式，你并不需要它。例如：

xml = File.open(xml_file).read 

# escaping inner HTML (maybe not the best way, just example) 
xml.gsub!(/<description>(.*)<\/description>/, "<description>#{CGI.escapeHTML($1)}</description>") 

data = Hash.from_xml(doc.to_s)

来源

2017-09-29 21:22:04 chumakoff

谢谢！这工作:) – user3771782

@ user3771782你为什么不接受答案？ – chumakoff

使用Nokogiri将xml转换为散列，但保留锚定标记

代码：

XML文件

回答

相关问题