我想了解一些tesseract。Tesseract - 训练
我正在使用jTessBoxEditor和Serak。
首先,我创建了一些.txt文件,例如有10000个字符,它们之间用一个空格分隔。我将它用作TIFF/BOX生成器中的jTessBoxEditor的输入。这为我创造了箱子和.tiff图像。
现在我验证这些框,并且看到它们是正确的。所以我使用它在Serak和traing tesseract,我创建了一些xxx.traineddata。
现在我想验证结果。所以我创建了一个小的.txt文件,例如用空格分隔的100个字符,但都非常相似(文件包含5 S 5 S 0 O 2 Z等等)。现在我使用与学习相同的方法创建.tiff,所以我使用jTessBoxEditor,相同的字体并生成新的.tiff文件。比在Serak我尝试OCR这个新的.tiff和结果是0与O混合,5与S等等。
我在做什么错?
如果你在jTessBoxEditor中训练,它有能力验证生成的'.traineddata'文件。 – nguyenq
当然。但是我非常困惑,因为当我使用用于训练tesseract的图像,然后尝试用新的训练数据拍摄这个相同的图像时,tesseract给我带来不好的结果(0 - > O等等)。 –