1
我一直在开发一个使用tesseract OCR(光学字符识别)的android应用程序,并想知道是否有改进小文本结果的方法。在Android上改善Tesseract结果
我试着重新编译标准字典与我自己的频繁和正常的单词列表(使用wordlist2dawg),并没有看到任何改善(我甚至不知道它是否帮助!)。我也听说有可能改变tesseract使用字典单词的阈值,但我不知道如何做到这一点。
如果有人有一个想法,我可以如何改善结果tesseract给我我真的很感激它!
所有的好建议。另一个建议是在实际的OCR之前“修复”小文本问题。图像可以在x和y方向上按比例增加或拉伸2倍或3倍,以生成更大图像,并且文字更大,这样许多OCR引擎可以更好地读取图像。它需要使用一些图像库来创建新的像素,而不是在图像头中覆盖dpi,但这是相对简单的预处理过程。 – 2012-03-15 17:29:22