2009-11-17 96 views
2

我正在寻找一个库(或命令行工具)将MS Office文档转换为明文或HTML(用于转换为文本)。将Microsoft Office文档转换为文本

它必须在Linux上运行(不通过Wine!)。

我发现了反义词,但最后一个版本是2005,因此它不会读取新的Office 2007格式。

我需要它来阅读Word,Excel和PowerPoint文档

回答

2

Apache的POI库可以extract text from office formats。这由Tika in Lucene使用。蒂卡可以作为command line tool执行:

curl http://.../document.doc \ 
    | java -jar tika-app-x.y.jar --text \ 
    | grep -q keyword 
+0

多vacilation之间的各种解决方案之后(包括编写我们自己的基于ECMA标准由Vunko的建议)我们可能会使用POI库。 – RickMeasham 2009-11-20 01:54:18

4

新的Office 2007格式只是(ZIP)压缩XML。

所有文本(至少为.docx格式)都位于(一旦您解压文件)文档文件夹document.xml文件中。将其从所有XML标签中剥离,然后您将看到文本。毫无疑问,你将失去格式化,但是如果你想做文本索引或类似的格式,那么无论如何格式都是不相关的。订单被保留。

我还没有分析Excel和Powerpoint,但方法应该是类似的。 Excel可能会更棘手,这取决于单元格如何存储在XML文件中。

0

PyODConverter用于自动化OpenOffice。用它来做转换。
OONinja example将Doc转换为PDF,但支持任何OpenOffice支持的导入或导出都可以使用。如果需要,还具有无头工作的优点。

其他选项包括, Abiword 或者你真的只是想处理的命令行WvWare,但我不认为它支持DOCX,

0

您可以使用自治的KeyView的适当许可的应用程序中使用。它似乎非常强大,可以从几乎所有的东西中提取文本;我们用它来识别任意格式文件中的文本。

我不知道的许可条款是什么,但他们从你的帐户管理者:)

相关问题