1
我有包含文本和图像的ms word文档。我想分析他们有他们的xml结构。经过研究,我最终使用Apache tika转换我的文档。我可以将我的文档解析为xml。这里是我的代码:使用Apache tika在doc文件中获得嵌入式资源
AutoDetectParser parser=new AutoDetectParser();
InputStream input=new FileInputStream(new File("1.docx"));
Metadata metadata = new Metadata();
StringWriter sw = new StringWriter();
SAXTransformerFactory factory = (SAXTransformerFactory)SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "no");
handler.setResult(new StreamResult(sw));
parser.parse(input, handler, metadata, new ParseContext());
String xhtml = sw.toString();
我想从文档中提取图像并将它们转换为二进制格式。我不知道如何从文档中提取嵌入式资源。
和另一个问题。在解析方法中,可以找出支持类型中声明的输出嵌入文件的格式,并将正确的类型替换为.bin? –
您可以从MimeTypesRegistry – Gagravarr
查找建议的扩展。非常感谢。你是最好的 ;) –