2011-06-13 122 views
7

我的任务是找到一种方法将大量的.docx文件转换为docbook 5.目前,我们在openoffice中打开该文件并保存到docbook。这是一项耗时的工作,但我相信有更好的方法。这些文件将进一步处理到我们自定义的放松NG模式。因此,这种转换不需要完美无缺。我环顾四周,并会继续调查一些线索,但没有发现任何有用的东西。将word(.docx)转换为docbook

看着Convert doc/docx to semantic HTML他们建议upCast,但这似乎不适合我的需要。

我正在寻找可以从命令行使用的免费功能。我最终想批量处理我们的文件。我已经包含了linux,python和java标签,因为这些是我最舒适的环境,但愿意为正确的解决方案而努力。在我出去重新发明车轮之前,我正在尝试做一些研究。

+0

考虑看openoffice api脚本打开+另存为? – 2011-06-13 15:27:58

+1

我编辑了你的问题,并从中删除了很多,你已经在这里呆了一段时间,但请看看[FAQ],因为不应该添加签名,而你的PS是主观的,几乎是一个不同的问题。请检阅我的修改,看看您的问题是否仍然完整。 – Trufa 2011-06-13 15:28:28

+0

这是Trufa,感谢您的编辑。我想我对电子邮件交换比我更熟悉。 @ThorbjørnRavn Andersen,我没有这可能是一个可行的解决方案。 – matchew 2011-06-13 15:31:23

回答

6

有几种方法来脚本此,无论是使用OpenOffice的内外部脚本和脚本。请参阅以下链接的一些例子:

是一些上面的链接不使用Java或Python

,但原则仍然适用,并且脚本通常是sh或足以让它们可以移植(第一个例子是Ruby,但由于简单起见,它是我个人的最爱)。

+0

谢谢,由于某种原因,我解决了python解决方案http:///mail.python.org/pipermail/python-announce-list/2006-May/004951.html – matchew 2011-06-13 19:05:09

2

如果冒险从SX获得考古学家的徽章,答案应包括对Pandoc的引用。这不依赖于开放式办公。

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx