2017-10-10 34 views
1

我收到了一组大的pdf文件(每个页面大于1000页),我想在这些文件中“自动”加粗整个文本(以便稍后执行OCR处理) 。在PDF文件中自动加粗整个文本

我可以通过Adobe Acrobat Pro手动逐页执行此任务。但是,我想知道是否可以通过工具自动完成或者编写一段代码?

PS:(!如果这样的服务存在)这些PDF文件是私有的,它不容许他们上传到在线服务

+0

我没有确切的解决方案,但一个想法是将页面转换为单个图像,例如gimp。作为处理这些图像的第二步。例如https://github.com/tesseract-ocr/tesseract – PKeidel

回答

0

有(据我所知)没有很好的工具,在做这个一种100%失败保险的方式。

问题是PDF不是一种简单的格式。把它看作是指令的容器。单词不会以连续字节出现在文档中。他们看起来像说明:

  1. 将光标放在第10位,50
  2. 设置字体为宋体,大小为10
  3. 绘制字符串 “H”
  4. 转到位置14,50
  5. 绘制字符串“E”

如果要大胆你会遇到变种文本问题。

  • 加粗文字可能会使其不再适合该行,这意味着您需要重新排版页面。重新编排页面非常困难。你需要知道哪些字符属于一起,是什么产生了一个段落,什么使得一个标题,等等。否则你不能明智地移动内容。
  • 加粗文本意味着您需要知道哪些文本已经是粗体。这也是不平凡的。字体有一个标志,让读者知道他们是否大胆。但“大胆”的财产也可以通过其他方式实现。所以,无论你使用什么工具,都需要能够准确地确定一个给定的字形是否为粗体,或者只需要在正常字体中对字符进行一些艺术性稍大胆的再现。
0

是跳出我的事情是,你要“以执行OCR处理后”要做到这一点。基于此,看起来您的真正目标并不是拥有一堆粗体文本 - 您的目标是能够更好地在这组文档上执行OCR。

如果这是真的,有些事情要记住:

  • 加粗的文字不一定会使其更易于阅读OCR处理 - 事实上,在某些情况下,可以把它清晰。 (也没有自动的方法来确定它会对给定的文本页面有什么影响。)
  • 包含文本(而不仅仅是文本页面的图像)的PDFs以一种可以以数字方式存储文本的方式由PDF处理应用程序提取。以这种方式提取的文本几乎总是比从OCR过程中得到的准确。
  • 如果这些'图片PDF'的文本页面充满了图像,您将无法轻松地将文本粗体显示在首位,而不仅仅是您可以更改快照中的文本一个路标。 (事实上​​,你必须首先对它进行OCR处理,以便能够粗体显示它。)
  • 如果你想打印这些PDF文件以便它们可以在以后被扫描和OCR检测,那么你真的应该考虑使它们以电子方式提供。

简而言之,与其侧重于如何制作数千页的文字粗体字,我会建议退后一步,看看你真正想要完成什么。

+0

请给我一些“PDF处理应用程序”的例子吗? –