2015-10-02 60 views
0

我可以在我的图书馆使用扫描仪,它可以创建“可搜索的PDF”。这些是显示扫描文档的确切图像的PDF,但当您尝试选择包含文本的图像部分时,可以选择PDF中的一种隐藏文本。通过这种方式,您可以复制和粘贴文本或搜索扫描文档中的文本。这非常有用。这是对原始扫描图像的极大改进。我的Mac上还有几个应用程序可以从扫描的文档或原始图像创建这种可搜索的PDF。如何编辑可搜索PDF的搜索文本?

现在是从谁曾经使用OCR任何明显的图像转换为文本的过程是不是100%准确,让你搜索或复制的文字将不会在某些地方是正确的。

所以我要寻找的相当长的一段时间发现,会加载一个可搜索的PDF,让我来修复隐藏搜索文本而无需重新格式化或修改原始扫描图像的应用程序。

有谁知道一个工具(或库API),将允许这一点?

这里值得一提的是,我尝试了最新版本的Adobe Acrobat DC for Mac,它似乎甚至不允许我隐藏可搜索的文本,更不用说编辑它。它确实允许我用它自己的OCR过程的结果替换扫描图像,以便我可以编辑和保存文档。但是这对我使用的任何扫描文档都会产生可怕的结果。它似乎设计用于编辑不编辑扫描文档的“本机PDF”。

我也尝试过ABBYY FineReader,但没有运气。

+0

我期待与你必须重新扫描原稿,并纠正在创建可搜索的PDF时文的声明很快就回答我的问题。我相信有些工具可以做到这一点,但我还没有找到那个功能。 –

+0

'pdfedit'已经很久了,但是为我完成这项工作。 – arkascha

回答

0

我使用的是ABBYY FineReader 12 Professional。 (非开源) 只需打开扫描图像或扫描的PDF文件,然后按验证文本(或Ctrl + F7),就可以查看所有拼写错误或低信度字符并修复它们。

程序是非常不错的,这表明你在图像/ PDF的确切地点,以纠正和侧为方便起见,OCR猜测侧。它迭代所有这些。

[顺便说一下,我正在使用快捷方式加快速度: Alt+Enter将无法​​识别的单词添加到字典中。 Ctrl+Delete跳过字或确认的情况下,你固定它]

比将文档保存为PDF文件菜单:文件>将文档另存为> PDF文件,你可以搜索它在每一个PDF阅读器。保存的文件与扫描的文件看起来一样,但在它后面有文本。

这很奇怪,你试过ABBYY没有运气......这对我工作的伟大。也许你尝试过的不是专业版。

希望它可以帮助你。