Q

解析Cakephp中的HTML

2012-07-24 15 views 1 likes

1

我开始在CakePHP 2.2中构建一个web爬虫。页面，脚本正在爬行的是HTML页面，我需要解析它们以获取我的值。解析Cakephp中的HTML

已经尝试了一些不同的解决方案，并查看了一些开源的东西，但不知道最好的办法是做什么。

DomDocument :: loadHTML（） - 看起来像这是解决方案，但不是100％确定。
正则表达式 - 硬有点维护
简单HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component（专为蛋糕1.3，它的代码的自我，是的，我不喜欢它 - ，得到了严重的内存泄漏（S））

要弄清楚，我应该使用哪种方法，我需要你的帮助。

2012-07-24 Kim Egede Jakobsen

+0

它看起来像我应该使用PHP的DOM文档，但找不到任何好的教程吧。 – 2012-07-24 18:41:08

A

回答

2

DomDocument是您的最佳选择。在这个模块的php.net文档中有一些体面的例子。如果你可以使用其他语言如ruby我有非常好的经验与hpricot，一个像解析HTML的库的jQuery。

这个问题是关系到Robust and Mature HTML Parser for PHP

2012-07-24 19:09:28

相关问题