2013-05-17 36 views
0

我有9个表行,但只有三个得到返回时,我查询顶级节点与DOMXpath。PHP的DOMXpath无法返回一组完整的子节点

<table class="something"> 
    <tbody> 
     <tr> 
      <td class="label">One</td> 
      <td>111111</td> 
     </tr> 
     <tr> 
      <td class="label">Two</td> 
      <td>1454</td> 
     </tr>  
     <tr> 
      <td class="label">Three</td> 
      <td></td> 
     </tr> 
     <tr> 
      <td class="label">Four</td> 
      <td>0</td> 
     </tr> 
     <tr> 
      <td class="label">Five</td> 
      <td>45</td> 
     </tr> 
     <tr> 
      <td class="label">Six</td> 
      <td>45</td> 
     </tr> 
     <tr> 
      <td class="label">Seven</td> 
      <td>5</td> 
     </tr> 
     <tr> 
      <td class="label">Eight</td> 
      <td>0</td> 
     </tr> 
     <tr> 
      <td class="label">Nine</td> 
      <td>0</td> 
     </tr> 
    </tbody> 
</table> 

我使用DOMDocument来加载HTML。

$doc = new DOMDocument; 
@$doc->loadHTML($htmlData); 
$xpath = new DOMXpath($doc); 
$tableRows = $xpath->query('//table[@class="something"]//tr'); 

不幸的是,一整套表行不会被返回 - 只有前三个。我猜想空元素<td></td>以某种方式抛弃了xpath解析器。有针对这个的解决方法吗?

编辑:

我尝试另一种方法,而无需使用DOMXpath。

$request = drupal_http_request($url); 

    $data = $request->data; 

    $doc = new DOMDocument; 
    @$doc->loadHTML($data); 
    $tables = $doc->getElementsByTagName('table'); 
    $rows = $tables->item(2)->getElementsByTagName('tr'); 
    $output = ''; 
    foreach($rows as $row) { 
     $cols = $row->getElementsByTagName('td'); 
     foreach($cols as $col){ 
      $output .= $col->nodeValue . '<br/>'; 
     } 
    } 
    return $output; 

两者接近输出这个HTML:

<div class="content"> 
    One<br>111111<br>Two<br>1454<br>Three<br><br> 
</div> 

在第一示例$ tableRows->长度为3,其与所述输出但不具有9行的标记相一致。

+0

不知道这是否是一个抄写错误或代码错字,但上面的表类是somethiing而不是某些东西。其次,我得到8/tr结果与该查询就好了? – pp19dd

+0

您的XPath完全正常。之后会有什么PHP代码?问题可能在那里。 –

+0

这可能是我刮了一个坏标记的网页,正在抛出DOMDocument –

回答

0

我在刮一个有无效,损坏,脏HTML的网页。 DOMDocument喜欢干净整洁(我猜)。相反,我使用simple_html_dom.php脚本来解析HTML,它工作正常。