我正在开发一个文本识别项目。 我已经使用TensorFlow建立了一个分类器来预测数字,但我想通过使用文本本地化和文本分割(分隔每个字符)来实现更复杂的文本识别算法,但是我没有找到算法部分的实现。我知道一些算法/实现/技巧,我使用TensorFlow来本地化文本,并在自然场景图片中进行文本分割(实际上是在运动图片的记分牌中对文本进行本地化和分割)?使用TensorFlow进行文本识别和检测
非常感谢您的帮助。
我正在开发一个文本识别项目。 我已经使用TensorFlow建立了一个分类器来预测数字,但我想通过使用文本本地化和文本分割(分隔每个字符)来实现更复杂的文本识别算法,但是我没有找到算法部分的实现。我知道一些算法/实现/技巧,我使用TensorFlow来本地化文本,并在自然场景图片中进行文本分割(实际上是在运动图片的记分牌中对文本进行本地化和分割)?使用TensorFlow进行文本识别和检测
非常感谢您的帮助。
要对页面上的元素(例如文本和图像段落)进行分组,您可以使用某些聚类算法和/或具有某些阈值的blob检测。
您可以使用Radon变换来识别线条并检测扫描页面的歪斜。
我认为对于字符分离,你将不得不混乱字体。一些多项式匹配/拟合等等。 (现在这是一个非常疯狂的猜测,不要认真对待)。 但类似的方法可以让你将字符排除在外并在同一步中识别它。
至于承认,一旦你有一个角色,有一个很好的三角诀窍比较字符角度存储在数据库中的角度。 作品也很棒。
我不是如何精确分割页面的专家,但似乎我正在努力成为一名专家。只是在一个包括它的项目上工作。 所以给我一个月,我可以告诉你更多。 :D
无论如何,你应该去阅读Tesseract代码,看看惠普和谷歌在那里做了什么。它应该给你很好的想法。
祝你好运!
这是一个__extremely__广泛的问题,辫子的答案是肯定的。 – putonspectacles
我个人喜欢用OCR的鼠标/触摸屏手势识别算法。你做了类似的事吗? – Dalen