2012-07-09 103 views
0


我所寻找的是一个文本转换库,可以转换Word文件格式,PDF文件文档格式转换为文本

,但保留文本转换后的格式结构表结构会丢失,文档变得扭曲

例如

名EMAILID PHONENUMBER是在一个表中,形成转换后

一排,这些都为s eparate线,如

EMAILID
PHONENUMBER

我想这些来作为名字EMAILID PHONENUMBER

目前

我使用Apache的咖喱,它使用Apache POI我怎样才能做到这一点

可以我解析msword文档元素如果是的话请分享一个例子

关于

拉雅

+0

究竟会怎么样的数据是“格式化'如果您通过将其转换为.txt文件来删除所有格式? – radimpe 2012-07-09 11:45:41

+1

请清楚解释您的期望和要求。同时让我们知道您对此要求所做的努力。 – developer 2012-07-09 11:47:32

回答

2

您可以通过使用APACHE POI和PDF阅读您的.doc .dox内容PDF READ

然后,你可以写的内容保存到文本文件