我可以在我的图书馆使用扫描仪,它可以创建“可搜索的PDF”。这些是显示扫描文档的确切图像的PDF,但当您尝试选择包含文本的图像部分时,可以选择PDF中的一种隐藏文本。通过这种方式,您可以复制和粘贴文本或搜索扫描文档中的文本。这非常有用。这是对原始扫描图像的极大改进。我的Mac上还有几个应用程序可以从扫描的文档或原始图像创建这种可搜索的PDF。如何编辑可搜索PDF的搜索文本?
现在是从谁曾经使用OCR任何明显的图像转换为文本的过程是不是100%准确,让你搜索或复制的文字将不会在某些地方是正确的。
所以我要寻找的相当长的一段时间发现,会加载一个可搜索的PDF,让我来修复隐藏搜索文本而无需重新格式化或修改原始扫描图像的应用程序。
有谁知道一个工具(或库API),将允许这一点?
这里值得一提的是,我尝试了最新版本的Adobe Acrobat DC for Mac,它似乎甚至不允许我隐藏可搜索的文本,更不用说编辑它。它确实允许我用它自己的OCR过程的结果替换扫描图像,以便我可以编辑和保存文档。但是这对我使用的任何扫描文档都会产生可怕的结果。它似乎设计用于编辑不编辑扫描文档的“本机PDF”。
我也尝试过ABBYY FineReader,但没有运气。
我期待与你必须重新扫描原稿,并纠正在创建可搜索的PDF时文的声明很快就回答我的问题。我相信有些工具可以做到这一点,但我还没有找到那个功能。 –
'pdfedit'已经很久了,但是为我完成这项工作。 – arkascha