2015-11-11 199 views
0

我想了解一些tesseract。Tesseract - 训练

我正在使用jTessBoxEditor和Serak。

首先,我创建了一些.txt文件,例如有10000个字符,它们之间用一个空格分隔。我将它用作TIFF/BOX生成器中的jTessBoxEditor的输入。这为我创造了箱子和.tiff图像。

现在我验证这些框,并且看到它们是正确的。所以我使用它在Serak和traing tesseract,我创建了一些xxx.traineddata。

现在我想验证结果。所以我创建了一个小的.txt文件,例如用空格分隔的100个字符,但都非常相似(文件包含5 S 5 S 0 O 2 Z等等)。现在我使用与学习相同的方法创建.tiff,所以我使用jTessBoxEditor,相同的字体并生成新的.tiff文件。比在Serak我尝试OCR这个新的.tiff和结果是0与O混合,5与S等等。

我在做什么错?

+0

如果你在jTessBoxEditor中训练,它有能力验证生成的'.traineddata'文件。 – nguyenq

+0

当然。但是我非常困惑,因为当我使用用于训练tesseract的图像,然后尝试用新的训练数据拍摄这个相同的图像时,tesseract给我带来不好的结果(0 - > O等等)。 –

回答

0

您确定您创建的新字体是否已将其转换为.traineddate文件?您必须将字体添加到font-properties文件中,在字体上运行unicharset_extractor,然后进行mftraining和cntraining,然后将所有内容组合在一起以获取生成的.traineddata文件。我遇到了类似的情况,因此我猜想最有可能的错误是创建.traineddata文件。在您的新字体进入之后,tesseract应该没有问题确定哪些字符是您刚刚培训的文件。