nokogiri

1热度

1回答

我有如下所示的xml文件。我想解析它转换为红宝石散列。我试图这样做：但它去掉锚标记，我结束了与描述这样的事情。 “今天是” 如何将XML转换为散列，但保留锚标签？代码： @doc = File.open(xml_file) { |f| Nokogiri::XML(f) } data = Hash.from_xml(@doc.to_s) XML文件 <blah> <t

0热度

1回答

使用红宝石的nokogiri刮去维基百科的特定部分

我想解析这个页面只有https://en.wikipedia.org/wiki/Morgan_Freeman的电影摄影部分。我试过到目前为止 actor = "Morgan_Freeman" html = Nokogiri::HTML(open("http://en.wikipedia.org/wiki/" + actor)) output = File.new(actor + ".tx

0热度

1回答

我正在尝试在红宝石中安装OpenGraph宝石

我搜索了整个网络寻找解决此错误的方法。但它不会让步。根据我的知识，我安装了所有的库和依赖项，甚至卸载了ruby和nokogiri并重新安装。但是这个错误仍然存在。 Gem files will remain installed in /home/$User/.rbenv/versions/2.4.2/lib/ruby/gems/2.4.0/gems/nokogiri-1.4.7 for ins

0热度

1回答

有没有办法找到Nokogiri :: XML :: Element的根标签名称？

有没有办法让根标签名称的名称为Nokogiri::XML::Element？在参考How do I get the root element name of an XML document using Nokogiri?之后，我尝试使用Nokogiri::XML::Element.xpath('/*').first.name，这似乎只适用于Nokogiri::XML::Document。有没有直接

0热度

2回答

如何提取不属于子节点的文本？

我使用Ruby 2.4和Nokogiri。如何从不属于另一个子元素的节点中提取文本？也就是说，如果我有节点 <a>Text 1<b>Text 2</b></a> 我想提取“文本1”而不是“文本2”。如果节点 <c>Hello</c> 我可以简单地调用 node.text 但“node.text”不为我上面描述的更复杂的情况下工作（这将同时返回“文本1”和“文本2”

1热度

2回答

Webscrapping引入nokogiri无法挑

我使用这个页面的所有类： https://www.google.com/search?q=ford+fusion+msrp&oq=ford+fusion+msrp&aqs=chrome.0.0l6.2942j0j7&sourceid=chrome&ie=UTF-8 我试图让这个元素：类=“_ XWK” page = HTTParty.get('https://www.google.com/sear

0热度

2回答

回车替换到通过引入nokogiri

回车（在Windows新的生产线使用）被引入nokogiri xml = Nokogiri::XML "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n<a>ABC</a>\n" xml.xpath('a').first.content = "testing\r\nnewlines" > "testing\r\nnewlines" xml.t

0热度

1回答

使用nokogiri xpath访问xmlns中的嵌套元素

我是nokogiri的新手，并且无法使用xpath访问具有特定xmlns的xml文档的嵌套元素。考虑下面的代码 #!/opt/chef/embedded/bin/ruby require 'nokogiri' doc = Nokogiri::XML.parse <<-XML <?xml version="1.0" encoding="UTF-8" ?> <domain xmln

0热度

1回答

Nokogiri迭代tr标签太多次

我在抓这页https://www.library.uq.edu.au/uqlsm/availablepcsembed.php?branch=Duhig和每个tr我正在收集并返回可用的计算机名称和数量。问题在于它迭代了太多次。只有4个tr标签，但循环经过5次迭代。这会导致额外的nil被追加到返回数组。为什么是这样？刮科： <table class="chart"> <tr valign

0热度

3回答

在引入nokogiri

选择的变化，我刮这两个网站： https://www.library.uq.edu.au/uqlsm/availablepcsembed.php?branch=Law https://www.library.uq.edu.au/uqlsm/availablepcsembed.php?branch=BSL。不幸的是，它们有变化。其中一个在href标记内具有级别名称（例如级别2），而另一个只是纯文本