2012-05-25 74 views
2

我的XML文档具有任意嵌套的节。鉴于对特定部分的参考,我需要找到该部分中的所有TextNode s 不包括第小节。查找除子节点以外的所有子级文本()节点

例如,给定到下面的#a1节点的引用,我只需要找到“A1”和“A1”文本节点:

<root> 
    <section id="a1"> 
    <b>A1 <c>A1</c></b> 
    <b>A1 <c>A1</c></b> 
    <section id="a1.1"> 
     <b>A1.1 <c>A1.1</c></b> 
    </section> 
    <section id="a1.2"> 
     <b>A1.2 <c>A1.2</c></b> 
     <section id="a1.2.1"> 
     <b>A1.2.1</b> 
     </section> 
     <b>A1.2 <c>A1.2</c></b> 
    </section> 
    </section> 
    <section id="a2"> 
    <b>A2 <c>A2</c></b> 
    </section> 
</root> 

如果它不明显,上述是组成数据。特别是id属性可能不存在于真实世界的文档中。

我想出现在是找到部分中的所有文本节点,然后用Ruby减去那些我不想要最好的:

def own_text(node) 
    node.xpath('.//text()') - node.xpath('.//section//text()') 
end 

doc = Nokogiri.XML(mydoc,&:noblanks) 
p own_text(doc.at("#a1")).length #=> 4 

我可以制作一个单个XPath 1.0表达式直接查找这些节点?喜欢的东西:

.//text()[ancestor::section = self] # self being the original context node 

回答

3

使用(与 “A1” 具有字符串值id属性的部分):

//section[@id='a1'] 
     //*[normalize-space(text()) and ancestor::section[1]/@id = 'a1']/text() 

XSLT - 基于验证

<xsl:stylesheet version="1.0" 
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> 
<xsl:output omit-xml-declaration="yes" indent="yes"/> 
<xsl:strip-space elements="*"/> 

<xsl:template match="/"> 
    <xsl:copy-of select= 
     "//section[@id='a1'] 
      //*[normalize-space(text()) and ancestor::section[1]/@id = 'a1'] 
    "/> 
</xsl:template> 
</xsl:stylesheet> 

当这种变换所提供的XML文档应用:

<root> 
    <section id="a1"> 
     <b>A1 
      <c>A1</c> 
     </b> 
     <b>A1 
      <c>A1</c> 
     </b> 
     <section id="a1.1"> 
      <b>A1.1 
       <c>A1.1</c> 
      </b> 
     </section> 
     <section id="a1.2"> 
      <b>A1.2 
       <c>A1.2</c> 
      </b> 
      <section id="a1.2.1"> 
       <b>A1.2.1</b> 
      </section> 
      <b>A1.2 
       <c>A1.2</c> 
      </b> 
     </section> 
    </section> 
    <section id="a2"> 
     <b>A2 
      <c>A2</c> 
     </b> 
    </section> 
</root> 

它评估的XPath表达式(选择想要的文本节点的只是父母 - 才能有清晰可见的结果)和所选择的节点拷贝到输出

<b>A1 
      <c>A1</c> 
</b> 
<c>A1</c> 
<b>A1 
      <c>A1</c> 
</b> 
<c>A1</c> 

UPDATE:万一section元件可以具有相同的id属性(或没有id属性在所有)使用:

 (//section)[1] 
      //*[normalize-space(text()) 
      and 
       count(ancestor::section) 
      = 
       count((//section)[1]/ancestor::section) +1]/text() 

XSLT - 基于验证

<xsl:stylesheet version="1.0" 
    xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> 
    <xsl:output omit-xml-declaration="yes" indent="yes"/> 
    <xsl:strip-space elements="*"/> 

    <xsl:template match="/"> 
     <xsl:copy-of select= 
      "(//section)[1] 
       //*[normalize-space(text()) 
       and 
        count(ancestor::section) 
       = 
        count((//section)[1]/ancestor::section) +1] 
     "/> 
    </xsl:template> 
</xsl:stylesheet> 

变换结果(相同)

<b>A1 
      <c>A1</c> 
</b> 
<c>A1</c> 
<b>A1 
      <c>A1</c> 
</b> 
<c>A1</c> 

这精确地选择了s ame想要文本节点。

+0

您可以在不依赖'id'属性的情况下执行此操作吗?这只是一个演示文档,可以清楚地说明和讨论这一点。想象一下嵌套的'

'元素没有明显的属性。 – Phrogz

+0

是的,请参阅此答案的更新。 –

+0

不错;我忘了使用'count()',但即使您开始使用它,我也无法弄清楚如何“存储”计数。这仍然不会直接在Ruby/XPath中工作(因为在启动新的上下文时,唯一的节点是'.'),但这似乎回答了通用XPath的问题。 – Phrogz

1

用途:

//text()[ancestor::section[1]/@id = 'a1'] 
+0

这只有在每个部分都有唯一的'id'属性时才有效。在我上面的示例数据中就是这种情况,但不是一个通用的解决方案。 +1,但不接受。 – Phrogz

+0

@Progro:如果是这种情况,你需要在问题的文本中指定。您还需要指定如何选择特定的“节”,因为这是所需XPath表达式的必要前缀。查看我的答案,找到不依赖于ID的唯一性的解决方案。 –

+0

@Dimitre任何部分都可以通过例如'// section [27]'或(实际上是我的情况)'doc.xpath('// section')来唯一选择。 ...使用此特定部分引用作为新XPath表达式的锚点...}' – Phrogz