我想将doc/docx文档转换为语义HTML。将doc/docx转换为语义HTML
一些愿望/要求:
语义化的HTML使得文档中的页眉是<H1>,<H2>等,表是<表>等等。
应该最好能够处理标题,列表,表格和图像。图和数学公式是一个很好的额外。
•不必直接从doc/docx转换为html,可以使用中间格式,如xml或docbook。
•应该以编程方式工作,并有大量文件。
到目前为止我发现的解决方案最接近的是http://holloway.co.nz/docvert/index.html,但不幸的是,有很多的bug,小的用户群,它不能处理大量的文档。更多的概念证明。
向上转型是在正确的方向,但不正是我所期待的。我仍在搜索,所以进一步的技巧值得赞赏。 但是,我想将“答案”授予某人并选择此选项。 – sandstrom