2017-04-06 505 views
0

我在Android应用程序中使用tesseract进行OCR。我专注于中文,但我只需要识别几个关键字,因此我正在考虑使用jTessBoxEditor创建我的.traineddata文件。我想知道中文传统TessData文件使用什么字体? https://github.com/tesseract-ocr/tessdataTesseract用于训练的TessData字体

另外,有没有办法,我可以编辑chi_tra.traineddata文件,所以它只能识别几个关键字?我这样做的主要原因是因为文件大小为63.4 MB,并且tesseract需要大约2到3分钟才能完成。准确度很高,但速度很慢。

回答

1

所有tesseract受过培训的语言的font_properties文件可在github中找到。您可以检查列表中支持的繁体中文特定字体。

tesseract-ocr/langdata文件夹here在github上,你可以检查chi_tra.wordlistchi_tra文件夹中找到用于训练的话。

相关问题