2013-04-11 35 views
6

我正在使用simpile_html_dom获取html页面元素。 我有一些像这样的div元素。我想要的是在每个div中都得到“Fine Thanks”句子(不在任何子元素内)。 我该怎么做?使用simpe-html-dom获取元素内容

<div class="right"> 
<h2> 
<a href="">Hello</a> 
</h2> 
<br/> 
<span>How Are You?</span> 
<span>How Are You?</span> 
<span>How Are You?</span> 
Fine Thanks 
</div> 
+0

确实没有尝试过任何的代码? – 2013-04-11 06:38:26

+0

你想得到或想要在div中插入? – liyakat 2013-04-11 06:40:37

+0

你能发布2个更多div元素吗?或者是否重复发布div元素? – 2013-04-11 06:45:50

回答

1

没有内置的方法来读取simple_html_dom.php文本属性
但这应该工作;

include 'parser.php'; 

$html = str_get_html('<div class="right"> 
<h2> 
<a href="">Hello</a> 
</h2> 
<br/> 
<span>How Are You?</span> 
<span>How Are You?</span> 
<span>How Are You?</span> 
Fine Thanks 
</div>'); 

function readTextNode($element){ 
    $local = $element; 
    $childs = count($element->childNodes()); 
    for($i = 0; $i < $childs; $i++) 
     $local->childNodes($i)->outertext = ''; 
    return $local->innertext; 
} 

echo readTextNode($html->find('div.right',0)); 
+0

这太可怕了,没有冒犯性;为了提取某些东西而修改树是落后的,在适当的库中不应该是必需的。叹。 – 2013-04-11 08:33:52

0
public function removeNode($selector) 
{ 
    foreach ($html->find($selector) as $node) 
    { 
    $node->outertext = ''; 
    } 

$this->load($this->save());   
} 

使用该函数从DIV除去H2和跨度元件。然后获取div元素数据。

参考网址:Simple HTML Dom: How to remove elements?

2

应该是简单$html->find('div.right > text'),但不会工作,因为简单的HTML DOM解析器似乎并不支持嫡系查询。

因此,您必须首先找到所有<div>元素并搜索子节点以查找文本节点。不幸的是,->childNodes()方法映射到->children(),因此只返回元素。

一个工作解决方案是在每个<div>元素上调用->find('text'),然后根据父节点过滤结果。

foreach ($doc->find('div.right') as $parent) { 
    foreach ($parent->find('text') as $node) { 
     if ($node->parent() === $parent && strlen($t = trim($node->plaintext))) { 
      echo $t, PHP_EOL; 
     } 
    } 
} 

使用DOMDocument,这个XPath表达式会做同样的工作,而不痛:

$doc = new DOMDocument; 
$doc->loadHTML($content); 
$xp = new DOMXPath($doc); 

foreach ($xp->query('//div/text()') as $node) { 
    if (strlen($t = trim($node->textContent))) { 
     echo $t, PHP_EOL; 
    } 
} 
+0

很可能,但OP说明他需要使用'simpile_html_dom'。当然XPath有比我们所有提供的更好的解决方案。 – 2013-04-11 08:38:35

+1

@silentboy那么,这就是为什么我的答案都有;我应该开始一个反simple_html_dom活动:) – 2013-04-11 08:40:28

+0

不要责怪简单,真的没有办法得到该文本节点(可能不应该)在CSS中。 – pguardiario 2013-04-11 20:32:18

1

我会切换到phpquery这一个。你仍然需要使用DOM但不能太痛苦:

require('phpQuery.php'); 

$html =<<<EOF 
<div class="right"> 
<h2> 
<a href="">Hello</a> 
</h2> 
<br/> 
<span>How Are You?</span> 
<span>How Are You?</span> 
<span>How Are You?</span> 
Fine Thanks 
</div> 
EOF; 

$dom = phpQuery::newDocumentHTML($html); 

foreach($dom->find("div.right > *:last") as $last_element){ 
    echo $last_element->nextSibling->nodeValue; 
} 

更新 这些天我推荐this simple replacement这也让你避免了DOM丑陋:

$doc = str_get_html($html); 
foreach($doc->find('div.right > text:last') as $el){ 
    echo $el->text; 
} 
相关问题