2012-11-16 126 views
6

我正在为Tesseract OCR编写图像培训生成器。为Tesseract OCR创建培训图像

当生成训练图像为正方体OCR新的字体,什么是最好的值:

  1. 的DPI
  2. 在点的字体大小
  3. 应的字体是反锯齿或不
  4. 如若边框紧贴:enter image description here,或不:enter image description here
+0

尝试字型12分和300 dpi的 –

回答

1

我找到了第四个问题的答案 - “边界框应该贴合”。

似乎尽可能地适合矩形给出更好的结果。

对于其他12点和300 dpi将足够好,如@雅罗斯拉夫建议。我认为抗锯齿更好地关闭。

2

第二个问题不知何故在这里回答:http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 没有必要使用多种尺寸来训练。 10分会做。 (这是一个很小的例外,如果要识别x高度小于15像素的文本,则应该专门进行训练或在尝试识别它们之前缩放图像。)

问题1和3:根据经验,我已成功使用300 dpi图像/非反锯齿字体。更具体而言,我已经使用在训练PDF,其产生令人满意的图像以下转换参数:

convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif 

但是,我试图虚线字体添加到超正方体,当我使用了150只检测到字符正确dpi图像。所以,我不认为有一个通用的解决方案,它取决于你试图添加的字体的种类。

-1

为正方体训练好工具http://vietocr.sourceforge.net/training.html

这是很好的工具,因为有许多优点

  1. 在信边界框可以通过GUI编辑基于接口
  2. 自动创建所有需要的文件
  3. 自动将freq-dawg,word-dawg,用户词(可以是空文件),Inttemp,Normproto,Pffmtable,Unicharset,DangAmbigs(可以是空文件),shapetable e eng.traineddata文件。
  4. 新的训练数据可以与现有的Tesseract文件中使用end.traineddata