2011-02-16 96 views

回答

2

这取决于它是如何转换的。许多OCR应用程序以某种方式将文本置于图像下。一些人通过首先将图像放置在顶部来放置文本来实现这一点。有些将图像放在底部,然后使用“不标记”传输模式将文本放在顶部。

我提到这一点是因为我无法预测任何特定的文本提取工具如何响应透明文本。理论上,它应该只给你文本(这是Acrobat所做的)。任何人都会猜测,所有文本提取工具是否都会发生这种情况。

+0

谢谢,这个答案与我所问的最接近(我显然没有正确地问)。就PDF格式而言,OCR转换的PDF与非OCR PDF没有区别。 OCR过程只是扫描图像并将文本添加到PDF。我使用Aspose来提取文本,并且我想确保如果给我的程序提供非OCR PDF,就不会有什么不好的事情发生。 – enamrik 2011-02-17 19:09:34

0

有许多用于处理pdf文件的商业SDK。 http://www.foxitsoftware.com/pdf/sdk/activex/这是狐狸的。

+0

我的问题是,使用某些OCR软件转换的PDF是否与普通PDF不同。或者是一个OCR转换的PDF只是一个包含更多文本而不是图像的PDF。我不太了解这个PDF结构。 – enamrik 2011-02-16 17:18:54