我看到有一个名为WordToHtmlConverter
的转换器,但未公开流程方法。我应该如何通过doc文件并获取HTML文件(或OutputStream
)?使用Apache POI将Word转换为HTML
9
A
回答
18
此代码现在为我工作!
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("D:\\temp\\seo\\1.doc"));
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
DocumentBuilderFactory.newInstance().newDocumentBuilder()
.newDocument());
wordToHtmlConverter.processDocument(wordDocument);
Document htmlDocument = wordToHtmlConverter.getDocument();
ByteArrayOutputStream out = new ByteArrayOutputStream();
DOMSource domSource = new DOMSource(htmlDocument);
StreamResult streamResult = new StreamResult(out);
TransformerFactory tf = TransformerFactory.newInstance();
Transformer serializer = tf.newTransformer();
serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
serializer.setOutputProperty(OutputKeys.INDENT, "yes");
serializer.setOutputProperty(OutputKeys.METHOD, "html");
serializer.transform(domSource, streamResult);
out.close();
String result = new String(out.toByteArray());
System.out.println(result);
+0
我可以得到它的整个代码..? –
+0
谢谢罗恩。你的建议救了我。我尝试提供的示例,但它跳过图中的图像,表格和内容(如框)。有没有什么办法可以提取它。我看到几个例子单独提取图像。有什么办法让所有人都聚在一起。否则,我们可以将这些图像,表格恰好放置在原始文件的位置。意味着满足“将DOC文件呈现为HTML内容”(不跳过图像,表格,图表等)的要求 –
相关问题
- 1. Java:使用apache POI如何将ms word文件转换为pdf?
- 2. 使用Apache POI将byteArray转换为XSSFWorkbook
- 3. 使用Apache POI在Java中将.doc转换为.html
- 4. 使用Apache POI将部分.dox文档转换为html
- 5. 使用Apache Poi将doc文件转换为html
- 6. 如何使用Apache POI将.XLS转换为.HTML文件?
- 7. 使用Apache POI库将Excel电子表格转换为HTML
- 8. 使用phpword将html转换为word
- 9. 将html转换为word c#
- 10. 是否可以使用Apache POI解析MS Word并将其转换为XML?
- 11. 使用poi转换ms word 2007
- 12. Apache POI - 将.html电子表格转换为.xls电子表格
- 13. Apache POI Word教程。
- 14. 如何使用Apache POI将HSSFWorkbook转换为XSSFWorkbook?
- 15. 使用Apache poi将csv转换为xls/xlsx?
- 16. 使用IKVM.Net将Apache POI .jar转换为.dll
- 17. 使用Apache POI将.docx转换为html并获取不到文本
- 18. 如何将.docx转换为使用apache poi的html,其中还包括图像
- 19. 如何使用APACHE POI或其他方式将MS PowerPoint 2003/2007转换为HTML?
- 20. 使用Apache POI将HTML格式化的单元格值转换为Excel 1
- 21. 在Apache POI中使用WordToHtmlConverter转换器
- 22. Apache POI Word .DOC替换文本
- 23. 快速将Word文档转换为HTML
- 24. 在html中使用docx4j将html转换为word文档
- 25. 如何从MS Word中使用Apache POI
- 26. 使用Apache POI编辑Word文档
- 27. 使用Java,Apache POI写入word tablecell?
- 28. 。将HTML转换为word文档
- 29. 将HTML转换为Word文档
- 30. 将MS Word内容转换为HTML
这是你要求的吗? http://stackoverflow.com/questions/227236/convert-word-doc-to-html-programmatically-in-java – enrique2334
这不是...在Apache POI他们有一个新的类在包org.apache.poi .hwpf.converter来处理...但找不到任何教程如何使用它们。 – Ron