根据此网站http://www.searchable-pdf.com/content.php?lang=en&c=61,添加文本图层时可以搜索PDF。PDF和文本图层
我正在寻找PDF的技术规范。我认为文本可以通过两种方式存储到PDF文件中: a)作为图像层上方的文本层(如上面的网页中所述) b)当您从Word文档(带有文本)创建PDF时,I不要以为Word会在文本层中存储所有文本。我认为它会将它存储在图像层?对?
自PDF 1.4起,XMP已被添加(http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)。但是什么是XMP?这是我上面讨论的“文本层”吗?
如果扫描仪在图像上执行OCR,是否将文本存储在“文本图层”中?或者“XMP”字段?这只能在PDF版本为1.4时使用?
如何检测PDF是否已经有文本数据?例如:PDF A已经使用OCR进行扫描,而PDF B没有进行扫描。我怎么知道PDF B应该发送到单独的OCR引擎?
通常,在OCR之后,文本会以'不可见'的文本呈现模式添加到PDF的* normal *内容中(不是额外的*图层*,这是不可见的 - 这也是PDF中的技术可能性;在PDF规范中查找*可选内容*)。----但是,在真实世界的PDF中(既有'扫描'也有'正常'PDF),你会经常发现你可以选择文本并复制它 - 但是粘贴之后,你只会有gobbledigook。或者,如果你在这样的文件上使用'pdftotext' ...如果是这样,那么这是使用字体的*编码*的问题.... – 2012-07-10 17:51:30