尽管在精确字体上进行训练，Tesseract会混淆“1”和“7”

我正在使用tesseract从图像中获取文本，我只对数字感兴趣。我训练了tesseract并创建了一种新的语言，即图像中的确切字体，训练数据仅包含数字。在训练数据中，我还包含了图像中的每个可能的值，1-5000是具体的，并且还创建了这些相同值的单词表。然而，它仍然混合了1和7，以及有时3和8.有没有人有任何建议，我应该不同地重新训练或对图像做一些处理，然后再将其交给tesseract？尽管在精确字体上进行训练，Tesseract会混淆“1”和“7”

来源

2017-02-09 Jim Gorski

可编辑添加示例图像，tesseract命令和输出以帮助您理解您的问题？ – thewaywewere

确保您提供给tesseract的培训文本中至少有20个每个字符的实例。我给了至少6页相同的字体，以便有一个体面的训练样本大小。

2.Tseseract文本识别还取决于图像质量。查看可以使用的预处理算法：Improve Quality of Tesseract

查看number_dawg文件。修改它可以帮助识别数字。

来源

2017-03-01 15:24:43 akozlu

尽管在精确字体上进行训练，Tesseract会混淆“1”和“7”

回答

相关问题