我正在研究一个网站刮板,它将汇总来自各个网站的数据。我已经开始使用PHP构建的DOM函数,但在遇到几个问题(特别是关于格式错误的标记和字符编码)后,我选择了放弃PHP。我正在考虑服务器端Javascript,但我打开其他建议。如果我使用Javascript,应该使用哪个解释器?DOM操作的最佳工具?
2
A
回答
2
尝试过Simple HTML DOM Parser没有?
1
Python中有一个很好的BeautifulSoup模块,可以在大多数情况下处理破碎的标记。如果页面格式错误以至内置启发式不起作用,它还允许使用钩子预处理HTML。我用BeautifulSoup编写了几十个解析器。
还有html5lib模块更快,也可以解析无效的HTML。
这两个模块都有Ruby端口。
相关问题
- 1. 在angularJS中操作DOM:最佳实践?
- 2. SmallTalk学习和开发的最佳操作系统和工具
- 3. DOM操作不工作
- 4. 用javascript/jQuery操作dom元素属性的最佳方法
- 5. Html Graphs的最佳工具
- 6. Ajax的最佳工具包?
- 7. 最佳阵列操作API
- 8. 最佳玩回复操作
- 9. 最佳PHP QA工具
- 10. 最佳语言工具
- 11. PHP中的DOM DOM操作
- 12. 使用.Net网络服务监视Coldfusion互操作性的最佳工具
- 13. 制作2D游戏的最佳编程语言和最佳工具包
- 14. DOM操作
- 15. Extjs dom操作
- 16. jQuery DOM操作
- 17. 从JavaScript操作CSS的最佳实践?
- 18. Android操作栏的最佳做法
- 19. 操作声音的最佳语言?
- 20. 操作数据的最佳实践
- 21. 执行此操作的最佳方式
- 22. 表单操作的最佳方式?
- 23. Python的最佳视频操作库?
- 24. 可视化功能的最佳工具
- 25. 可视化本体的最佳工具?
- 26. 最佳工具生成Java或jQuery的
- 27. 图像分割的最佳工具
- 28. aspnet部署工具的最佳组合
- 29. 适用于AJAX的最佳工具
- 30. 使用Amazon RDS的最佳工具?
谢谢,我会给它一个镜头。 – 2010-01-31 07:59:11