我有一个HTML字符串,它可能是这个样子:PHP DOM:获取所有文本值
<body>
<div>
<span class="blah">Monkey </span>
<p>breath really <b>stinks</b></p>
And I don't like it!
</div>
</body>
正如你可以看到,还有一些文字正确包含作为元素中的值,有包含文本节点和其他元素的元素。我希望能够得到所有文本值在body下(假设body是一个DOMElement,我已经存储在一个变量中)。
因此,输出看起来是这样的:
猴breat真的很糟糕,我不喜欢它!
我该怎么做? XPath的?正则表达式?魔法?
尝试魔术,当它感觉,你使用JavaScript。 – Chibuzo 2012-04-06 02:01:30
@jwegner - 你为什么要这样做?什么是用例? – Flukey 2012-04-06 02:03:19
@Flukey类似于“链接密度”的讨论[这里](http://stackoverflow.com/questions/3652657/what-algorithm-does-readability-use-for-extracting-text-from-urls),我会喜欢计算一个HTML表格的密度 – jwegner 2012-04-06 12:08:19