2012-07-24 15 views
1

我开始在CakePHP 2.2中构建一个web爬虫。 页面,脚本正在爬行的是HTML页面,我需要解析它们以获取我的值。解析Cakephp中的HTML

已经尝试了一些不同的解决方案,并查看了一些开源的东西,但不知道最好的办法是做什么。

要弄清楚,我应该使用哪种方法,我需要你的帮助。

+0

它看起来像我应该使用PHP的DOM文档,但找不到任何好的教程吧。 – 2012-07-24 18:41:08

回答

2

DomDocument是您的最佳选择。在这个模块的php.net文档中有一些体面的例子。如果你可以使用其他语言如ruby我有非常好的经验与hpricot,一个像解析HTML的库的jQuery。

这个问题是关系到Robust and Mature HTML Parser for PHP