2008-12-17 61 views
13

有谁知道我可以在OS X/Linux上使用的库来解析Word文件并将内容输出为HTML?如何用ruby解析word文档?

我已经看过win32ole,但据我所知,它只适用于Windows,虽然我可能是错的。

有什么建议吗?

回答

10

Word文档格式(忽略当前的docx)非常糟糕,并且不断变化。恕我直言,这就是为什么有这么几个(阅读:零)Ruby库来解析它们。

我推荐使用JRuby和一些已建立的Java库来阅读doc格式。谷歌应该帮助你:http://schmidt.devlib.org/java/libraries-word.html

有一个Java项目用于读取MIcrosoft文件格式,POI(http://poi.apache.org/),它们确实有Ruby绑定(http://poi.apache.org/poi-ruby.html),但我不确定这些是如何最新的。在他们的网站上,它说Ruby绑定是为1.8.2 ...