0

我正在开发一个文本识别项目。 我已经使用TensorFlow建立了一个分类器来预测数字,但我想通过使用文本本地化和文本分割(分隔每个字符)来实现更复杂的文本识别算法,但是我没有找到算法部分的实现。我知道一些算法/实现/技巧,我使用TensorFlow来本地化文本,并在自然场景图片中进行文本分割(实际上是在运动图片的记分牌中对文本进行本地化和分割)?使用TensorFlow进行文本识别和检测

非常感谢您的帮助。

+0

这是一个__extremely__广泛的问题,辫子的答案是肯定的。 – putonspectacles

+0

我个人喜欢用OCR的鼠标/触摸屏手势识别算法。你做了类似的事吗? – Dalen

回答

1

要对页面上的元素(例如文本和图像段落)进行分组,您可以使用某些聚类算法和/或具有某些阈值的blob检测。

您可以使用Radon变换来识别线条并检测扫描页面的歪斜。

我认为对于字符分离,你将不得不混乱字体。一些多项式匹配/拟合等等。 (现在这是一个非常疯狂的猜测,不要认真对待)。 但类似的方法可以让你将字符排除在外并在同一步中识别它。

至于承认,一旦你有一个角色,有一个很好的三角诀窍比较字符角度存储在数据库中的角度。 作品也很棒。

我不是如何精确分割页面的专家,但似乎我正在努力成为一名专家。只是在一个包括它的项目上工作。 所以给我一个月,我可以告诉你更多。 :D

无论如何,你应该去阅读Tesseract代码,看看惠普和谷歌在那里做了什么。它应该给你很好的想法。

祝你好运!

+0

谢谢!在一个月内等待你的答案:) –

+2

我没有说你不应该做任何事,只是等待我在一个月内分裂愚蠢的网页。我知道在示例代码方面,网络上存在一点点不足,但是在那里有一些关于OCR的好书,正如我所说的,tesseract是GPL。我希望你能最终帮助我而不是其他方式。但是不要紧。我将不得不早晚处理页面分割。让我们看看谁会先解决问题。 – Dalen

+0

@Dalen你是否从你的项目中获得任何结果?我正在研究一个涉及文本检测和分割的项目。 – SarahData