我试图更好地了解PDF如何存储文本。一般来说,当从MS Word等应用程序创建PDF时(或者在我的情况下,SQL Server Reporting Services)时,PDF如何存储文本?如果原始PDF文档是从图像创建的,我希望在这种特定情况下,生成的文档不会被OCR处理。PDF如何存储文本
为了更详细一点,我试图了解PDF的文本提取器是如何工作的。我最初对PDF的理解是,它存储了(PostScript)有关如何将文档的“图像”绘制到页面或打印机上的说明,以及文档本身没有包含实际文本。随后,我认为文本提取器可能会对这些指令进行反向工程,以生成PDF将以其他方式生成的文本。不过,我对此没有信心。
那么你有什么看?显然不是PDF规范或维基百科文章。 – 2013-03-27 14:04:02
我很好奇:这个“脱离主题?”究竟如何? – 2013-03-28 14:56:03