2011-06-28 38 views
7

我们正在搜索一个允许我们将doc或docx文档转换为txt文件的程序。我们正在使用linux,并且我们希望启动一个网站来转换用户上传的doc文件。我们不想使用开放式办公室/免费办公室,因为我们对此有不好的经验。 Pandoc无法处理doc文件:/通过命令行将文档转换为txt

任何人都有想法?

回答

1

这里是一个perl project它声称做到这一点。我也手动完成了很多工作,在document.xml上使用XSLT。 Docx文件本身只是一个zip文件,您可以将其解压缩并检查元素。我会说这对于特定文件来说并不难,但是在一般情况下很难做到,因为缺乏关于Word如何存储内容的文档以及内部表示的差异。

3

您将不得不使用两种不同的命令行工具,具体取决于您使用的是.doc还是.docx格式。

对于.DOC使用catdoc:

catdoc foo.doc > foo.txt 

对于.DOCX使用docx2txt:

docx2txt foo.docx 

后者会产生一种名为foo.txt的在同一目录与原始文件。

我不确定您使用的是哪个Linux发行版,但catdoc和docx2txt都可以从Ubuntu存储库获得,例如。

相关问题