是否可以从可搜索的PDF访问文本覆盖？

我知道PDF和文本可搜索的PDF是有区别的。文本可搜索的PDF文件具有用于搜索的文本覆盖。是否有可能将此文本叠加到一个txt文件中？也许使用Adobe API？是否可以从可搜索的PDF访问文本覆盖？

2012-10-04 bheussler

“Searchable PDF”不是官方的定义，但它是一个常用的表达式。

如果一个标准的PDF已经嵌入了所有使用的字体，并且这些字体没有使用自定义编码，那么它很可能是“可搜索的”：这意味着您可以复制'n'你可以从中提取文本（和像pdftotext这样的工具或多或少地完美工作）。这与“文本覆盖”无关，它是PDF的标准体系结构。

您所描述的“文本覆盖”是可以添加到扫描的 PDF中。扫描创建的PDF是整页图像，通常是TIFF，嵌入在PDF页面（否则为空）中。然后，在附加步骤中，通过针对它运行OCR（光学字符识别）来添加“文本叠加”。这提供了“可搜索性”，否则愚蠢的“像素专用”PDF。

如果这样一个带有“文本叠加”的PDF不会在其字体周围使用奇怪的构造，那么应该很容易将这些文本解压缩到* .txt文件中。毕竟，在一个只有图像的PDF运行OCR旨在增加 “搜索” 文本：

安装pdftotext（可用于Linux，UNIX，Windows和Mac OS X的），然后尝试运行：
```
pdftotext -layout some-input.pdf some-input.txt 
```

注意事项，大多数OCR从完美的作品远。如果您对个字符的识别率达到99％，那么您将很幸运。（但是，这意味着：所有话和所有句子约100％含有约10％的误差 - 这会给你保证，在高中失败...）

还应当注意这些“文本叠加”在技术上与PDF中的任何其他文本部分相同（除了它们包含更多拼写和语法错误:-) - 但它们使用特殊文本呈现模式（模式3），描述为“既不填充也不是描边文字（不可见）。“虽然它是'隐形'，你仍然可以突出显示，复制'n'paste或提取这些文本部分。

2012-10-04 23:43:51

谢谢。这不仅是启发，但它完美地回答了我的问题。 – bheussler

回答