2009-08-26 109 views
1

我想将doc/docx文档转换为语义HTML。将doc/docx转换为语义HTML

一些愿望/要求:

  1. 语义化的HTML使得文档中的页眉是<H1>,<H2>等,表是<表>等等。

  2. 应该最好能够处理标题,列表,表格和图像。图和数学公式是一个很好的额外。

•不必直接从doc/docx转换为html,可以使用中间格式,如xml或docbook。

•应该以编程方式工作,并有大量文件。

到目前为止我发现的解决方案最接近的是http://holloway.co.nz/docvert/index.html,但不幸的是,有很多的bug,小的用户群,它不能处理大量的文档。更多的概念证明。

回答

1

有一个名为upCast的工具,可以将Word文档转换为XML。

+0

向上转型是在正确的方向,但不正是我所期待的。我仍在搜索,所以进一步的技巧值得赞赏。 但是,我想将“答案”授予某人并选择此选项。 – sandstrom

1

我写了一个实用程序,它实现了您列出的要求,不包括图像,图表和数学公式。它的测试版质量(即它可以在我的机器上运行)。我发表在http://www.modeltext.com/word

2

“文档中的标题是” 我认为这是不可能的。 由于MS Word只记录结果,不同样式的<p> 就像纸上的印刷文字一样,原始信息不会被记录下来。

您的其他愿望可以接近。 这里有两种商业工具可以做到这一点 (不要相信那些免费的工具或在线工具,他们没有做真正的工作。)通过Zapadoo

1字清洁www.zapadoo.com
2通过奇迹的Word的HTML清洁工 www.htmlcleaner.com

我更喜欢去年刚刚发布的第二个。你可以尝试他们两个。

1

docx4j(仅适用于docx,不是doc)写入干净的HTML输出。如果你希望< h1>而不是< p class =“h1”>,那么你需要改变一些东西,但它的开放源代码让你可以做到这一点。