2015-12-29 130 views
2

我在培训Tesseract OCR时遇到以下问题。我正在使用Tesseract 3.02 for windows。Tesseract OCR无法正确训练图像

我有一个要训练的字符的数据集。我已经编写了一个C++程序来读取数据集中的每个字符,裁剪它&将其大小调整为40x40图像,并合并/粘贴尺寸为650x450的单个图像(请参阅附加图像)。数据集中的所有100个图像都会重复此操作。 C++程序还为每个添加的字符生成框文件。我已经使用Tesseract wiki上提到的Box编辑器工具验证了Box文件和图像。这些文件是正确的。合并图像的扩展名是.tif。

我附上图像供您参考。问题是当我在Tesseract中训练图像时,我在控制台上获得了以下输出。

F:\测试>的tesseract eng.normal.exp0.tif eng.normal.exp0 box.train 超正方体程序源码OCR引擎V3.02与Leptonica APPLY_BOXES: 盒从boxfile读:100 实测值100良好斑点。 培训......字体名称= 9个字

正常 产生的训练数据,即使有像在36个不同的词或字,说的Tesseract它可能产生的训练数据仅为9个字符。它还表示,它发现了100个好点子。我不知道为什么会发生这个问题。盒子文件具有图像中所有100个字符的标签。

请帮忙!

training image

感谢

回答

0

训练数据集应根据training guide是现实的。请注意,正如您所提到的,它为9个字符生成了不是9个字符的训练数据。可能它可能已经识别出所有的字符。您可以使用this tool来检查生成的.traineddata文件以分析tesseract已被训练的字符。

+0

谢谢。将检查该工具。 – Priyanka

0

Training Wiki,“不要在图像文件中混合字体(精确地在单个.tr文件中)。这会导致在聚类时丢弃要素,导致识别错误。”