2017-02-09 29 views
0

我正在使用tesseract从图像中获取文本,我只对数字感兴趣。我训练了tesseract并创建了一种新的语言,即图像中的确切字体,训练数据仅包含数字。在训练数据中,我还包含了图像中的每个可能的值,1-5000是具体的,并且还创建了这些相同值的单词表。然而,它仍然混合了1和7,以及有时3和8.有没有人有任何建议,我应该不同地重新训练或对图像做一些处理,然后再将其交给tesseract?尽管在精确字体上进行训练,Tesseract会混淆“1”和“7”

+0

可编辑添加示例图像,tesseract命令和输出以帮助您理解您的问题? – thewaywewere

回答

1
  1. 确保您提供给tesseract的培训文本中至少有20个每个字符的实例。我给了至少6页相同的字体,以便有一个体面的训练样本大小。

2.Tseseract文本识别还取决于图像质量。查看可以使用的预处理算法:Improve Quality of Tesseract

  1. 查看number_dawg文件。修改它可以帮助识别数字。