非英文文本识别

我已经在印地文中实现了文本检测算法，并且它工作得非常好，并且已经本地化了文本区域。现在我正在寻找将文本区域转换为Google翻译API可以使用的数字格式。有关如何将其转换为数字格式的帮助？（我看了SVM，ANN等）非英文文本识别

我会考虑OCR。

Tesseract OCR引擎（开源）具有包括印地语在内的许多语言的语言数据，所以这可能是一个很好的开始。它也可以集成到OpenCV中。

如果您只想使用OpenCV，那么机器学习方法（KNN，SVM）中的一种可能是最好的，您需要自己培训以识别字符。

几个环节：

2015-03-31 07:13:19 user3510227

我正在寻找实现KNN或SVM的基础ed方法，但如果tesseract可以为此工作，我会尝试，谢谢你。（对不起，我没有足够的代表upvote这否则我wudve :)） – 2015-03-31 10:36:18

没问题，我认为你可以通过接受答案来关闭问题。我还添加了另一个关于将Tesseract集成到OpenCV中的链接，这可能会有所帮助。 – user3510227 2015-03-31 10:58:02

回答