2013-03-21 114 views
3

我目前的项目涉及将pdf中的文本转录为文本文件,我首先尝试将图像文件直接放入OCR程序(tesseract),但它没有做得很好。 原始图像文件基本上都是旧报纸,并且有一些背景噪音,我相信tesseract有问题。所以我试图在将它送入tesseract之前使用一些图像预处理。是否有任何适合这种情况的开源图像预处理引擎的建议?关于如何使用它的说明会更加赞赏!图片OCR过程前的预处理

回答

3

我从来没有听说过的的“图像预处理引擎”为了这个目的,但你可以在OpenCV(开源计算机视觉库)看看,并实现自己的“预处理引擎”。 OpenCV是一个计算机视觉库,提供许多功能来执行图像处理。你可能想测试作为预处理步骤是应用门槛的图像以去除噪声和东西

一个有趣的事情。无论如何,我已经在this thread中讨论过这类东西。

2

就像@karlphillip提到的那样,我非常怀疑有一个容易使用的预处理引擎可以满足您的需求,因为预处理技术与期望的结果差异很大。

一些常见的方法来清理噪声图像的文本包括: 1.自适应阈值(Sauvola或Niblack二值化) 2.应用一个尺寸比文本稍大的中值滤波器获得的背景图像,然后从原始图像中减去背景(去除较大的噪音,如折痕,污渍,手写笔记等)。

OpenCV实现了这些过滤/二值化方法。如果你有机会获得已发表的文献,那么在噪音文件的二值化方面还有很多工作要做。

+0

所以一旦我学会了如何使用OpenCV,我可以使用那些实现的方法来过滤文档图像? – Sardonic 2013-03-23 20:37:37

+0

看起来我错了。 OpenCV没有Suvola或Niblack实现(虽然有一个自适应阈值函数可能会给出类似的结果)。它确实有Otsu二值化,如果在整个图像上有一致的光照,它可以为你工作。所以,回答你的问题,是的。 – Noremac 2013-03-25 13:57:13

0

结账ScanTailor。它具有非常令人印象深刻的预处理功能,它是开源的。

+1

旋转,去扭曲和分页并不能真正打动我。 OCR还有很多工作要做。特别是将彩色图像转换为真正的黑白图像是重要的一步。 – Elmue 2018-01-09 01:38:11