使用引入nokogiri拆就BR标签

我有代码IM的一个片段试图与引入nokogiri看起来像这样来解析内容：使用引入nokogiri拆就BR标签

<td class="j"> 
    <a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br> 
    <a title="title text2" href="http://link2.com">Link 2</a> (info1), Blah 1,<br> 
    <a title="title text2" href="http://link3.com">Link 3</a> (info2), Blah 1 Foo 2,<br> 
</td>

我使用这样的事情可以访问td.j源： data_items = doc.css("td.j")

我的目标是将这些行中的每一行分成一个哈希数组。我能看到的唯一的逻辑分割点是在BR上分割，然后在字符串上使用一些正则表达式。

我想知道是否有更好的方法来做到这一点，也许只使用nokogiri？即使我可以使用nokogiri来吸出3行项目，它会让我更容易，因为我可以对.content结果做一些正则表达式解析。

不知道如何使用Nokogiri抓住以br结尾的行 - 但我应该使用xpaths吗？任何方向感谢！谢谢

来源

2011-08-14 Mario Zigliotto

如果你的数据真的很规律，你不需要从<a>元素的属性，那么你可以解析每个表格单元格的文本形式，而不必担心<br>元素。在chunks

[ 
    [ "Link 1 (info1), Blah 1", "Link 2 (info1), Blah 1", "Link 3 (info2), Blah 1 Foo 2" ], 
    [ "Link 4 (info1), Blah 2", "Link 5 (info1), Blah 2", "Link 6 (info2), Blah 2 Foo 2" ], 
    [ "Link 7 (info1), Blah 3", "Link 8 (info1), Blah 3", "Link 9 (info2), Blah 3 Foo 2" ], 
    [ "Link A (info1), Blah 4", "Link B (info1), Blah 4", "Link C (info2), Blah 4 Foo 2" ] 
]

：

鉴于一些HTML像这样html：

<table> 
    <tbody> 
     <tr> 
      <td class="j"> 
       <a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br> 
       <a title="title text2" href="http://link2.com">Link 2</a> (info1), Blah 1,<br> 
       <a title="title text2" href="http://link3.com">Link 3</a> (info2), Blah 1 Foo 2,<br> 
      </td> 
      <td class="j"> 
       <a title="title text1" href="http://link4.com">Link 4</a> (info1), Blah 2,<br> 
       <a title="title text2" href="http://link5.com">Link 5</a> (info1), Blah 2,<br> 
       <a title="title text2" href="http://link6.com">Link 6</a> (info2), Blah 2 Foo 2,<br> 
      </td> 
     </tr> 
     <tr> 
      <td class="j"> 
       <a title="title text1" href="http://link7.com">Link 7</a> (info1), Blah 3,<br> 
       <a title="title text2" href="http://link8.com">Link 8</a> (info1), Blah 3,<br> 
       <a title="title text2" href="http://link9.com">Link 9</a> (info2), Blah 3 Foo 2,<br> 
      </td> 
      <td class="j"> 
       <a title="title text1" href="http://linkA.com">Link A</a> (info1), Blah 4,<br> 
       <a title="title text2" href="http://linkB.com">Link B</a> (info1), Blah 4,<br> 
       <a title="title text2" href="http://linkC.com">Link C</a> (info2), Blah 4 Foo 2,<br> 
      </td> 
     </tr> 
    </tbody> 
</table>

你可以这样做：

chunks = doc.search('.j').map { |td| td.text.strip.scan(/[^,]+,[^,]+/) }

，并有这一点。然后你可以把它转换成你需要的任何哈希表。

来源

2011-08-14 20:10:37

我不确定使用散列数组的点，没有一个示例我不能提出建议。但是，对于<br>标签分裂的文字，我会去这样理解：

require 'nokogiri' 

doc = Nokogiri::HTML('<td class="j"> 
    <a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br> 
    <a title="title text2" href="http://link2.com">Link 2</a> (info1), Blah 1,<br> 
    <a title="title text2" href="http://link3.com">Link 3</a> (info2), Blah 1 Foo 2,<br> 
</td>') 

doc.search('br').each do |n| 
    n.replace("\n") 
end 
doc.at('tr.j').text.split("\n") # => ["", " Link 1 (info1), Blah 1,", "Link 2 (info1), Blah 1,", "Link 3 (info2), Blah 1 Foo 2,"]

这将让你更接近散列：

Hash[*doc.at('td.j').text.split("\n")[1 .. -1].map{ |t| t.strip.split(',')[0 .. 1] }.flatten] # => {"Link 1 (info1)"=>" Blah 1", "Link 2 (info1)"=>" Blah 1", "Link 3 (info2)"=>" Blah 1 Foo 2"}

来源

2011-08-14 21:26:12

这为我工作。非常感谢！ –

使用引入nokogiri拆就BR标签

回答

相关问题