Q

Tesseract - 训练

2015-11-11 199 views 0 likes

0

我想了解一些tesseract。Tesseract - 训练

我正在使用jTessBoxEditor和Serak。

首先，我创建了一些.txt文件，例如有10000个字符，它们之间用一个空格分隔。我将它用作TIFF/BOX生成器中的jTessBoxEditor的输入。这为我创造了箱子和.tiff图像。

现在我验证这些框，并且看到它们是正确的。所以我使用它在Serak和traing tesseract，我创建了一些xxx.traineddata。

现在我想验证结果。所以我创建了一个小的.txt文件，例如用空格分隔的100个字符，但都非常相似（文件包含5 S 5 S 0 O 2 Z等等）。现在我使用与学习相同的方法创建.tiff，所以我使用jTessBoxEditor，相同的字体并生成新的.tiff文件。比在Serak我尝试OCR这个新的.tiff和结果是0与O混合，5与S等等。

我在做什么错？

2015-11-11 Jaro Kollár

+0

如果你在jTessBoxEditor中训练，它有能力验证生成的'.traineddata'文件。 – nguyenq

+0

当然。但是我非常困惑，因为当我使用用于训练tesseract的图像，然后尝试用新的训练数据拍摄这个相同的图像时，tesseract给我带来不好的结果（0 - > O等等）。 –

A

回答

0

您确定您创建的新字体是否已将其转换为.traineddate文件？您必须将字体添加到font-properties文件中，在字体上运行unicharset_extractor，然后进行mftraining和cntraining，然后将所有内容组合在一起以获取生成的.traineddata文件。我遇到了类似的情况，因此我猜想最有可能的错误是创建.traineddata文件。在您的新字体进入之后，tesseract应该没有问题确定哪些字符是您刚刚培训的文件。

2016-12-15 19:18:25 Boutin

相关问题