我在培训Tesseract OCR时遇到以下问题。我正在使用Tesseract 3.02 for windows。Tesseract OCR无法正确训练图像
我有一个要训练的字符的数据集。我已经编写了一个C++程序来读取数据集中的每个字符,裁剪它&将其大小调整为40x40图像,并合并/粘贴尺寸为650x450的单个图像(请参阅附加图像)。数据集中的所有100个图像都会重复此操作。 C++程序还为每个添加的字符生成框文件。我已经使用Tesseract wiki上提到的Box编辑器工具验证了Box文件和图像。这些文件是正确的。合并图像的扩展名是.tif。
我附上图像供您参考。问题是当我在Tesseract中训练图像时,我在控制台上获得了以下输出。
F:\测试>的tesseract eng.normal.exp0.tif eng.normal.exp0 box.train 超正方体程序源码OCR引擎V3.02与Leptonica APPLY_BOXES: 盒从boxfile读:100 实测值100良好斑点。 培训......字体名称= 9个字
正常 产生的训练数据,即使有像在36个不同的词或字,说的Tesseract它可能产生的训练数据仅为9个字符。它还表示,它发现了100个好点子。我不知道为什么会发生这个问题。盒子文件具有图像中所有100个字符的标签。
请帮忙!
感谢
谢谢。将检查该工具。 – Priyanka