1
我开始在CakePHP 2.2中构建一个web爬虫。 页面,脚本正在爬行的是HTML页面,我需要解析它们以获取我的值。解析Cakephp中的HTML
已经尝试了一些不同的解决方案,并查看了一些开源的东西,但不知道最好的办法是做什么。
- DomDocument :: loadHTML() - 看起来像这是解决方案,但不是100%确定。
- 正则表达式 - 硬有点维护
- 简单HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component(专为蛋糕1.3,它的代码的自我,是的,我不喜欢它 - ,得到了严重的内存泄漏(S))
要弄清楚,我应该使用哪种方法,我需要你的帮助。
它看起来像我应该使用PHP的DOM文档,但找不到任何好的教程吧。 – 2012-07-24 18:41:08