2015-03-31 106 views
0

我已经在印地文中实现了文本检测算法,并且它工作得非常好,并且已经本地化了文本区域。现在我正在寻找将文本区域转换为Google翻译API可以使用的数字格式。有关如何将其转换为数字格式的帮助? (我看了SVM,ANN等)非英文文本识别

回答

0

我会考虑OCR。

Tesseract OCR引擎(开源)具有包括印地语在内的许多语言的语言数据,所以这可能是一个很好的开始。它也可以集成到OpenCV中。

如果您只想使用OpenCV,那么机器学习方法(KNN,SVM)中的一种可能是最好的,您需要自己培训以识别字符。

几个环节:

https://code.google.com/p/tesseract-ocr/(正方体)

https://opencv-code.com/tutorials/how-to-read-the-digits-from-a-scratchcard/(OpenCV中+的Tesseract)

http://blog.damiles.com/2008/11/basic-ocr-in-opencv/(OpenCV的只有 - KNN)

https://opencv-code.com/tutorials/how-to-integrate-tesseract-ocr-and-opencv/(集成的Tesseract & OpenCV的)

+0

我正在寻找实现KNN或SVM的基础ed方法,但如果tesseract可以为此工作,我会尝试,谢谢你。 (对不起,我没有足够的代表upvote这否则我wudve :)) – 2015-03-31 10:36:18

+0

没问题,我认为你可以通过接受答案来关闭问题。我还添加了另一个关于将Tesseract集成到OpenCV中的链接,这可能会有所帮助。 – user3510227 2015-03-31 10:58:02