我收到了一组大的pdf文件(每个页面大于1000页),我想在这些文件中“自动”加粗整个文本(以便稍后执行OCR处理) 。在PDF文件中自动加粗整个文本
我可以通过Adobe Acrobat Pro手动逐页执行此任务。但是,我想知道是否可以通过工具自动完成或者编写一段代码?
PS:(!如果这样的服务存在)这些PDF文件是私有的,它不容许他们上传到在线服务
我收到了一组大的pdf文件(每个页面大于1000页),我想在这些文件中“自动”加粗整个文本(以便稍后执行OCR处理) 。在PDF文件中自动加粗整个文本
我可以通过Adobe Acrobat Pro手动逐页执行此任务。但是,我想知道是否可以通过工具自动完成或者编写一段代码?
PS:(!如果这样的服务存在)这些PDF文件是私有的,它不容许他们上传到在线服务
有(据我所知)没有很好的工具,在做这个一种100%失败保险的方式。
问题是PDF不是一种简单的格式。把它看作是指令的容器。单词不会以连续字节出现在文档中。他们看起来像说明:
如果要大胆你会遇到变种文本问题。
是跳出我的事情是,你要“以执行OCR处理后”要做到这一点。基于此,看起来您的真正目标并不是拥有一堆粗体文本 - 您的目标是能够更好地在这组文档上执行OCR。
如果这是真的,有些事情要记住:
简而言之,与其侧重于如何制作数千页的文字粗体字,我会建议退后一步,看看你真正想要完成什么。
请给我一些“PDF处理应用程序”的例子吗? –
我没有确切的解决方案,但一个想法是将页面转换为单个图像,例如gimp。作为处理这些图像的第二步。例如https://github.com/tesseract-ocr/tesseract – PKeidel