使用Tesseract检测黑色背景上的白色字符

我对Tesseract OCR完全陌生。这个问题可能很简单，但我似乎无法使用Google找到答案。使用Tesseract检测黑色背景上的白色字符

基本上，我有一个图像，其中包含两部分：第一部分，在图像的顶部，有黑色背景，白色文本;位于图像底部的第二部分具有白色背景，黑色文本。

我在图像上运行了tesseract，它能够正确识别底部的所有字符，但在顶部没有。我相信顶部的角色非常清晰，应该很容易被Tesseract识别出来。唯一的区别是它有黑色背景。

有没有办法使用Tesseract在黑色和白色背景中同时识别文本？

2016-08-17 Chaoran

T. Kasar，J. Kumar和A. G. Ramakrishnan的论文描述了一个解决问题的方法：“字体和背景颜色独立文本二值化”。该文件可以找到here。 Jason Funk有一个算法的实现。他的实现可以找到here。我已经有了一些成功的算法。我认为这种解决方案就是你要找的。

您可能还会发现查看最近问的关于背景删除（OpenCV for OCR: How to compute thresholding levels for gray image OCR）及其答案的帮助。您可能能够通过背景颜色区分感兴趣的区域，然后将每个区域交给tesseract进行处理。或者，后二值化可以反转图像的黑色背景部分（或反之）中的8x8像素区域（在上面的回答中进行了描述）以创建统一的背景。

最后，您可以通过搜索车牌识别问题（或车牌）的解决方案找到一些有用的信息。许多车牌（车牌）具有可能干扰识别的背景图像或照明伪影。更一般的问题是背景清除。

来源

2016-09-03 17:48:35

使用Tesseract检测黑色背景上的白色字符

回答

相关问题