2012-05-16 192 views
0

除了使用ADO,还有其他方式使用VB6从PDF文件中提取数据吗?我已成功设法使用VB6打开PDF文件,而不使用Acrobat Reader,但我项目中的下一步需要读取PDF文件并从中找到数据。例如什么页面显示“水泥”一词?如何阅读PDF文件

+1

Err,ADO和PDFs? – Deanna

+1

PDF解析是[非常棘手](http://stackoverflow.com/questions/1251956/is-there-a-pdf-parser-for-php),显然(这是PHP的,但会给你一个想法复杂)。同时:VB6?! – halfer

+0

你看了这里:http://stackoverflow.com/questions/7784235/read-pdf-file-contents-in-vb – thejartender

回答

1

一般而言,您将需要依赖外部库。纯粹的VB解决方案(即以文本形式读取文件并自行处理)不会在一周内完成。

您可以通过自动化使用Adobe Acrobat。一个例子让你开始http://www.freevbcode.com/ShowCode.asp?ID=7066。但请注意,Adobe Reader是不够的,你真的需要完整的Acrobat。还有其他流行的PDF阅读库(例如poppler),但是您可能很难在VB6中使用这些库。

关于一般性评论,您的成功机会取决于您的“提取”的含义。简而言之, PDF是纯粹描述性的格式,不包含元信息。即该文件包含诸如“将A放在(x1,y1);将'foo'放在(x2,y2)”等指令。读取表格或任何类型的结构化信息都需要大量的启发式检测。

最好的行动方案可能是尝试获取您想要以更适合的数据格式(明文,XML,无论)提取的数据。