2012-10-04 89 views

回答

8

“Searchable PDF”不是官方的定义,但它是一个常用的表达式。

如果一个标准的PDF已经嵌入了所有使用的字体,并且这些字体没有使用自定义编码,那么它很可能是“可搜索的”:这意味着您可以复制'n'你可以从中提取文本(和像pdftotext这样的工具或多或少地完美工作)。这与“文本覆盖”无关,它是PDF的标准体系结构。

您所描述的“文本覆盖”是可以添加到扫描的 PDF中。扫描创建的PDF是整页图像,通常是TIFF,嵌入在PDF页面(否则为空)中。然后,在附加步骤中,通过针对它运行OCR(光学字符识别)来添加“文本叠加”。这提供了“可搜索性”,否则愚蠢的“像素专用”PDF。

如果这样一个带有“文本叠加”的PDF不会在其字体周围使用奇怪的构造,那么应该很容易将这些文本解压缩到* .txt文件中。毕竟,在一个只有图像的PDF运行OCR旨在增加 “搜索” 文本:

  • 安装pdftotext(可用于Linux,UNIX,Windows和Mac OS X的),然后尝试运行:

    pdftotext -layout some-input.pdf some-input.txt 
    

注意事项,大多数OCR从完美的作品远。如果您对个字符的识别率达到99%,那么您将很幸运。 (但是,这意味着:所有和所有句子约100%含有约10%的误差 - 这会给你保证,在高中失败...)

还应当注意这些“文本叠加”在技术上与PDF中的任何其他文本部分相同(除了它们包含更多拼写和语法错误:-) - 但它们使用特殊文本呈现模式(模式3),描述为“既不填充也不是描边文字(不可见)。“虽然它是'隐形',你仍然可以突出显示,复制'n'paste或提取这些文本部分。

+0

谢谢。这不仅是启发,但它完美地回答了我的问题。 – bheussler

相关问题