2014-05-25 19 views
1

这是一个约食物开放DATABSE页:选择在表中的所有textnodes使用XPath

http://www.dabas.com/ProductSheet/Details.ashx/121308

林试图从使用XPath此页面的一些信息。 我感兴趣的表格叫做Näringsvärde。 我想获取保存为字符串的“N​​äringsvärde”内的所有textnode。

这所链接的代码的相关部分的上方:

<!DOCTYPE html> 
<html> 
... 
<body> 
... 
<table class="width100" style="page-break-inside: avoid"> 
    <caption> 
     Produktinformation 
      <img src="../../images/ProductSheet/draw-triangle3.png" id="toggleProduktinformation" 
       class="imgCaptionOn" /> 
    </caption> 
    <tbody id="tbodyProduktinformation"> 
     <tr> 
      <td class="col1"> 
       Ursprungsland: 
      </td> 
      <td> 
Sverige   </td> 
     </tr> 
     ... 
    </tbody> 
</table> 

<table id="tableHover" class="width100 marginTop30 bgTable"> 
<tr class="nohover"> 

<td class="tdLeft48 padding0"> 
    <table id="nutritiveTabel" class="leftTable" style="page-break-inside: avoid"> 
     <caption> 
      Näringsvärde 
       <img src="../../images/ProductSheet/draw-triangle3.png" id="toggleNutritiveValues" 
        class="imgCaptionOn" /> 
     </caption> 
     <tbody id="tbodyNutritiveValues"> 
      <tr id="divNutritiveValues"> 
       <td class="padding"> 
        <table class="noBorder width100"> 
          <tr> 
           <td class="col1"> 
            Tillagningsstatus: 
           </td> 
           <td>Tillagad</td> 
           <td colspan="2"> 
            &amp;amp;nbsp; 
           </td> 
          </tr> 
         ... 
        </table> 
       </td> 
      </tr> 
     </tbody> 
    </table> 
</td> 
... 
</html> 

我试图用这样的事情,到目前为止,但它没有工作:

public List<string> GetNaring(string xid) {   
    HtmlWeb web = new HtmlWeb(); 
    HtmlDocument doc = web.Load(xid); 
    var xpath = "/html/body/div/div[2]/div[2]/table[2]/tbody/tr/td/table/tbody"; 
    var links = doc.DocumentNode.SelectNodes(xpath); 
    return links.Select(n => n.InnerText).ToList(); 

}

但是这只能给我回复null,我错过了什么?

回答

1

XPath表达式:

/html/body/div/div[2]/div[2]/table[2]/tbody/tr/td/table/tbody 

不匹配任何节点。

既然你有一个唯一的字符串,你可以匹配,你应该使用它。搜索源代码串,你会发现:

... 
<td class="tdLeft48 padding0"> 
    <table id="nutritiveTabel" class="leftTable" style="page-break-inside: avoid"> 
     <caption> 
      Näringsvärde 
       <img src="../../images/ProductSheet/draw-triangle3.png" id="toggleNutritiveValues" 
        class="imgCaptionOn" /> 
     </caption> 
     <tbody id="tbodyNutritiveValues"> 
      <tr id="divNutritiveValues"> 
... 

的字符串是你想要的表内caption元素的子元素。您必须获取该元素的字符串值,修剪多余的空格并使用结果与“Näringsvärde”进行比较。您可以选择正确的table使用这个表达式:

//table[normalize-space(caption/text())='Näringsvärde'] 

一旦你有了正确的表,你可以在它里面浏览和选择所需的节点,或者你可以得到字符串值这是一个级联的所有后代文本节点:

//table[normalize-space(caption/text())='Näringsvärde']//td 

这将返回所有td节点,这就是文字。

+0

非常感谢你的代码和课程!它工作完美,我一定会在下次再次访问这个问题! – user2915962

+0

林不知道为什么,但这段代码给了所有信息两次..,你有什么想法可能是什么?也许在其他地方出错了? – user2915962

+1

如果信息未在原始文件中复制,则问题不在XPath表达式中。 – helderdarocha