2012-01-28 49 views
0

如何将doc或docx转换为Java中的HTML。使用Apache POI,我能够将doc转换为html,但无法将docx转换为html?请给我看示例代码?此代码适用于doc,但不适用于docx。将Doc或Docx转换为Java中的HTML

 HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(stream); 

     WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
       DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument()); 
     wordToHtmlConverter.processDocument(wordDocument); 
     Document htmlDocument = wordToHtmlConverter.getDocument(); 
     ByteArrayOutputStream out = new ByteArrayOutputStream(); 
     DOMSource domSource = new DOMSource(htmlDocument); 
     StreamResult streamResult = new StreamResult(out); 

     TransformerFactory tf = TransformerFactory.newInstance(); 
     Transformer serializer = tf.newTransformer(); 
     serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8"); 
     serializer.setOutputProperty(OutputKeys.INDENT, "yes"); 
     serializer.setOutputProperty(OutputKeys.METHOD, "html"); 
     serializer.transform(domSource, streamResult); 
     out.close(); 

     String result = new String(out.toByteArray()); 
+0

您可以使用docx4j为,见例如: https://github.com/plutext/docx4j/blob/master/src/samples/docx4j/org/docx4j/samples/ConvertOutHtml.java – 2017-04-11 23:10:31

回答

0

没有理由为什么这不应该/不能工作。

请查看以下内容:

总之,要确保你使用的POI的先进的最新版本,并让所有的所需的库。

(如果需要其他帮助,请解释一下什么是不工作您是否收到编译时错误运行时错误意外的输出???)

+0

谢谢。您的链接只显示如何提取docx,但我需要将docx转换为html。 – user960567 2012-01-28 17:09:52

+0

@ user960567 - 您如何将* .doc转换为HTML?使用* .docx真的不应该有任何不同。你有什么尝试,你在哪里遇到问题? – ziesemer 2012-01-28 17:12:54

+0

看到我编辑的问题 – user960567 2012-01-28 17:20:54