2011-04-20 74 views
1

我有一个问题涉及HTML页面的分析。例如,有一个页面,www.example.com/page.html包含我需要的表格中的信息,www.example.com/page2.html还有一些其他信息,但是是文本格式。目前,我正在使用一个正则表达式(preg_match_all),我必须插入一个手工制作的图案。有没有更快/更好的方法来做到这一点。因此,完整的问题是:是否有一种快速/好的方法从HTML页面提取信息,而不需要我通过正则表达式使用和编辑源代码的某些部分?分析HTML页面

(其他信息:我使用PHP i.c.w.卷曲获得页面的内容,然后我用preg_match_all提取数据)

回答

4

是的!您可以将网页内容加载到PHP DOMDocument中,并使用html类和ID获取数据,就像使用Javascript一样。

这里是文档http://www.php.net/manual/en/class.domdocument.php

你应该使用

DOMDocument::loadHTML($html); 

然后按照文件开始,它的例子

2

使用this post中建议的任何解析器。你不应该使用正则表达式来解析html。