我试图从无效HTML网站刮取数据。 Simple HTML DOM Parser解析它,但由于它处理无效的HTML如何丢失一些信息。带有DOMXPath的内置DOM解析器不起作用,它返回一个空白结果集。我能够通过PHP Tidy运行获取的HTML后在本地工作(DOMDocument和DOMXPath),但PHP Tidy未安装在服务器及其共享托管服务器上,所以我无法控制这一点。我试过HTMLPurifier,但这似乎只是为了确保用户输入,因为它完全删除了doctype,head和body标签。如何使用无效HTML刮掉网站
是否有任何种类的独立替代PHP Tidy?我真的更喜欢使用DOMXPath浏览并获取我需要的东西,它似乎需要一些帮助清理HTML,然后才能解析它。
编辑:我刮这个网站:http://courseschedules.njit.edu/index.aspx?semester=2010f。现在我只是试图获得所有的课程链接。
什么网站你刮? – Stephen 2010-10-08 18:48:29
[解析HTML的最佳方法]的可能重复(http:// stackoverflow。com/questions/3577641/best-methods-to-parse-html) – Gordon 2010-10-08 21:29:34
这篇文章实际上有我需要的。 PHPQuery完成了这项工作。 – Telanor 2010-10-08 23:55:12