Tesseract OCR无法正确训练图像

我在培训Tesseract OCR时遇到以下问题。我正在使用Tesseract 3.02 for windows。Tesseract OCR无法正确训练图像

我有一个要训练的字符的数据集。我已经编写了一个C++程序来读取数据集中的每个字符，裁剪它&将其大小调整为40x40图像，并合并/粘贴尺寸为650x450的单个图像（请参阅附加图像）。数据集中的所有100个图像都会重复此操作。 C++程序还为每个添加的字符生成框文件。我已经使用Tesseract wiki上提到的Box编辑器工具验证了Box文件和图像。这些文件是正确的。合并图像的扩展名是.tif。

我附上图像供您参考。问题是当我在Tesseract中训练图像时，我在控制台上获得了以下输出。

F：\测试>的tesseract eng.normal.exp0.tif eng.normal.exp0 box.train 超正方体程序源码OCR引擎V3.02与Leptonica APPLY_BOXES：盒从boxfile读：100 实测值100良好斑点。培训......字体名称= 9个字

正常产生的训练数据，即使有像在36个不同的词或字，说的Tesseract它可能产生的训练数据仅为9个字符。它还表示，它发现了100个好点子。我不知道为什么会发生这个问题。盒子文件具有图像中所有100个字符的标签。

请帮忙！

感谢

来源

2015-12-29 Priyanka

训练数据集应根据training guide是现实的。请注意，正如您所提到的，它为9个字符生成了不是9个字符的训练数据。可能它可能已经识别出所有的字符。您可以使用this tool来检查生成的.traineddata文件以分析tesseract已被训练的字符。

来源

2015-12-30 06:23:29

谢谢。将检查该工具。 – Priyanka

每Training Wiki，“不要在图像文件中混合字体（精确地在单个.tr文件中）。这会导致在聚类时丢弃要素，导致识别错误。”

来源

2016-01-01 22:00:05 nguyenq

Tesseract OCR无法正确训练图像

回答

相关问题