2010-04-18 48 views

回答

5

所有.doc文件存储在binary format。打开和操作这些是PAIN的练习。

所有.docx文件实际上是以ZIP格式存储的XML文件的集合。没错,只需将.docx或.xmlx或.pptx的扩展名更改为.ZIP,就可以像打开其他任何ZIP文件一样打开文件。 MS甚至有一个称为Office Open XML的格式的API。就我个人而言,我认为OOXML API具有相当陡峭的学习曲线,当我倾向于制作Word文件或以其他方式操作它们时,我只需制作一个示例文件,解压缩它,然后操作其内部。海事组织的OOXML文件的基础知识很简单,足以使用没有一个大的旧API ...

+0

谢谢你给我一个很好的起点,试验简单的单词文件。我肯定会看到它,现在我有一些想法! – ComethTheNerd 2010-04-18 22:29:53

2

是所有的MS Word文档序列化为XML可读格式?

简答:没有。

长答案:每发布一次,MS都会更改word文档的格式。因此Word 6.0到95使用格式,Word 97到2002(又名XP)使用另一个,2003另一个,而2007又是另一个。

当然,每个版本都可以以旧格式保存和打开文档(虽然新功能通常无法保存在这些较旧的格式中)。

截至2003年(.doc)的格式是以前版本的增量升级,并且是基于二进制的。

与Office 2007中引入格式文件(.docx)是基于XML的,并被迫为ISO标准“ISO/IEC 29500:2008的Office Open XML”,虽然这个词本身是不是该标准完全兼容。请注意,Word 2007仍然可以以旧的二进制格式保存(并打开)文档。

希望这会有所帮助。

+0

非常感谢,它确实有帮助,虽然它看起来比我希望的更复杂! – ComethTheNerd 2010-04-18 22:35:10

相关问题