在PDF文件中自动加粗整个文本

我收到了一组大的pdf文件（每个页面大于1000页），我想在这些文件中“自动”加粗整个文本（以便稍后执行OCR处理）。在PDF文件中自动加粗整个文本

我可以通过Adobe Acrobat Pro手动逐页执行此任务。但是，我想知道是否可以通过工具自动完成或者编写一段代码？

PS：（！如果这样的服务存在）这些PDF文件是私有的，它不容许他们上传到在线服务

来源

2017-10-10 Derar Alhussein

我没有确切的解决方案，但一个想法是将页面转换为单个图像，例如gimp。作为处理这些图像的第二步。例如https://github.com/tesseract-ocr/tesseract – PKeidel

有（据我所知）没有很好的工具，在做这个一种100％失败保险的方式。

问题是PDF不是一种简单的格式。把它看作是指令的容器。单词不会以连续字节出现在文档中。他们看起来像说明：

将光标放在第10位，50
设置字体为宋体，大小为10
绘制字符串 “H”
转到位置14，50
绘制字符串“E”
等

如果要大胆你会遇到变种文本问题。

加粗文字可能会使其不再适合该行，这意味着您需要重新排版页面。重新编排页面非常困难。你需要知道哪些字符属于一起，是什么产生了一个段落，什么使得一个标题，等等。否则你不能明智地移动内容。
加粗文本意味着您需要知道哪些文本已经是粗体。这也是不平凡的。字体有一个标志，让读者知道他们是否大胆。但“大胆”的财产也可以通过其他方式实现。所以，无论你使用什么工具，都需要能够准确地确定一个给定的字形是否为粗体，或者只需要在正常字体中对字符进行一些艺术性稍大胆的再现。

来源

2017-10-10 13:58:49

是跳出我的事情是，你要“以执行OCR处理后”要做到这一点。基于此，看起来您的真正目标并不是拥有一堆粗体文本 - 您的目标是能够更好地在这组文档上执行OCR。

如果这是真的，有些事情要记住：

加粗的文字不一定会使其更易于阅读OCR处理 - 事实上，在某些情况下，可以把它少清晰。（也没有自动的方法来确定它会对给定的文本页面有什么影响。）

包含文本（而不仅仅是文本页面的图像）的PDFs以一种可以以数字方式存储文本的方式由PDF处理应用程序提取。以这种方式提取的文本几乎总是比从OCR过程中得到的准确。

如果这些是'图片PDF'的文本页面充满了图像，您将无法轻松地将文本粗体显示在首位，而不仅仅是您可以更改快照中的文本一个路标。（事实上，你必须首先对它进行OCR处理，以便能够粗体显示它。）

如果你想打印这些PDF文件以便它们可以在以后被扫描和OCR检测，那么你真的应该考虑使它们以电子方式提供。

简而言之，与其侧重于如何制作数千页的文字粗体字，我会建议退后一步，看看你真正想要完成什么。

来源

2017-10-10 19:50:43

请给我一些“PDF处理应用程序”的例子吗？ –

在PDF文件中自动加粗整个文本

回答

相关问题