2010-01-31 61 views
2

我正在研究一个网站刮板,它将汇总来自各个网站的数据。我已经开始使用PHP构建的DOM函数,但在遇到几个问题(特别是关于格式错误的标记和字符编码)后,我选择了放弃PHP。我正在考虑服务器端Javascript,但我打开其他建议。如果我使用Javascript,应该使用哪个解释器?DOM操作的最佳工具?

回答

1

Python中有一个很好的BeautifulSoup模块,可以在大多数情况下处理破碎的标记。如果页面格式错误以至内置启发式不起作用,它还允许使用钩子预处理HTML。我用BeautifulSoup编写了几十个解析器。

还有html5lib模块更快,也可以解析无效的HTML。

这两个模块都有Ruby端口。