图片OCR过程前的预处理

我目前的项目涉及将pdf中的文本转录为文本文件，我首先尝试将图像文件直接放入OCR程序（tesseract），但它没有做得很好。原始图像文件基本上都是旧报纸，并且有一些背景噪音，我相信tesseract有问题。所以我试图在将它送入tesseract之前使用一些图像预处理。是否有任何适合这种情况的开源图像预处理引擎的建议？关于如何使用它的说明会更加赞赏！图片OCR过程前的预处理

来源

2013-03-21 Sardonic

我从来没有听说过的的“图像预处理引擎”为了这个目的，但你可以在OpenCV（开源计算机视觉库）看看，并实现自己的“预处理引擎”。 OpenCV是一个计算机视觉库，提供许多功能来执行图像处理。你可能想测试作为预处理步骤是应用门槛的图像以去除噪声和东西

一个有趣的事情。无论如何，我已经在this thread中讨论过这类东西。

来源

2013-03-21 21:38:38 karlphillip

就像@karlphillip提到的那样，我非常怀疑有一个容易使用的预处理引擎可以满足您的需求，因为预处理技术与期望的结果差异很大。

一些常见的方法来清理噪声图像的文本包括： 1.自适应阈值（Sauvola或Niblack二值化） 2.应用一个尺寸比文本稍大的中值滤波器获得的背景图像，然后从原始图像中减去背景（去除较大的噪音，如折痕，污渍，手写笔记等）。

OpenCV实现了这些过滤/二值化方法。如果你有机会获得已发表的文献，那么在噪音文件的二值化方面还有很多工作要做。

来源

2013-03-22 14:24:00 Noremac

所以一旦我学会了如何使用OpenCV，我可以使用那些实现的方法来过滤文档图像？ – Sardonic 2013-03-23 20:37:37

看起来我错了。 OpenCV没有Suvola或Niblack实现（虽然有一个自适应阈值函数可能会给出类似的结果）。它确实有Otsu二值化，如果在整个图像上有一致的光照，它可以为你工作。所以，回答你的问题，是的。 – Noremac 2013-03-25 13:57:13

结账ScanTailor。它具有非常令人印象深刻的预处理功能，它是开源的。

来源

2014-03-10 06:05:19 Ivar

旋转，去扭曲和分页并不能真正打动我。 OCR还有很多工作要做。特别是将彩色图像转换为真正的黑白图像是重要的一步。 – Elmue 2018-01-09 01:38:11

图片OCR过程前的预处理

回答

相关问题