我是xpath的新手,请耐心等待。目前,我正在寻找使用scrapy刮一些内容了一些网页,内容看起来是这样的: <td colspan="3" valign="top" class="regular">Landsize: 84,000sq with an extensive shoreline 750m<br />
<br />
Call Or Email for more info<br /
有没有一种方法可以从HTML字符串中检索所有纯文本节点的数组?我想它来检索“嵌套”独立地元件,因此像这样的字符串: <p>This is a <b>nested <i>HTML</i> tag<b>...</p>
将被检索为This is a,nested,HTML,tag,和...为单独的元件。 谷歌搜索,并因此搜索使我拼凑这混乱的代码: $doc = new DOMDocument();