2012-06-11 150 views
0

如何从pdf文件中提取数据主要是数据表等这些东西是否有任何免费或开源工具可用于直接进行。我必须处理大量文件的从pdf中提取数据

回答

0

是的,你可以使用Lucene的3.X库和PDFBOX 0.7

但是从PDF提取你不能得到转化提取PDF文件中的文本在一定程度上一些图片有的格式将被转换成二进制和garabage代码

但你可以得到纯文本

File f = new File("filename"); 

FileInputStream fis=new FileInputStream(f); 

PDFParser parser=new PDFParser(fis); 

parser.parse(); 

PDDocument pd=parser.getPDDocument(); 

PDFTextStripper pst=new PDFTextStripper(); 

String pdftext=pst.getText(pd); 

对于您需要下载两个jar文件 1)Lucene的核心 - 3.0.3罐子 2)PDFBOX-0.7.3罐子

我会帮你这个不用担心

0

对于基本的文本提取,如果你有机会到命令行实用程序,尝试pdftotextpdftohtml。您也可以使用strings命令。