2013-02-25 38 views
2

我正在寻找一个用户可以转换任何类型的文件(pdf,doc,docx,xl​​s,xlsx,csv,rtf,txt)的Java实用程序。我们有要求用户可以上传任何类型的文件,我们需要读取文件的内容(仅文本),将其转换并存储在一个对象中。这可以使用Apachi poi完成,但我想知道是否有任何Java实用程序存在?Java实用程序将任何文件的内容转换为文本文件。

+0

什么是您的编程问题?这种效用要么非常容易出错(不够具体),要么非常难以开发(考虑到许多具体情况),因此也是专有的(例如用于搜索引擎)。 – ipavlic 2013-02-25 16:12:16

+0

对于解析PDF,您可以使用PDFBox:http://pdfbox.apache.org/ – 2013-02-25 16:13:22

+0

Christophe,由于javier给出了apache tikka及其使用内部PDFBox的链接。它不仅关于pdf,我还需要解析其他格式。 – 2013-02-26 06:35:04

回答

4

您可能感兴趣的Apache Tika,其中包括Apache POI和PDFBox的功能。从项目描述中,工具包:“使用现有解析器库从各种文档检测并提取元数据和结构化文本内容。”

+0

感谢Javier,Apache Tika看起来不错,满足了我的要求。 – 2013-02-26 06:29:08

0

我想你不能对每种类型的文件都具有某种通用功能。您将需要为每种文件类型实现转换方法。 This link有助于PDF文件,并且还会为您提供一个模板来处理您的其他文件类型。

+0

感谢克里斯的评论,但我个人从不建议任何人使用roseindia.net。相信我这是学习一些最糟糕的网站。 – 2013-02-26 06:32:48

相关问题