2012-07-24 62 views
0

我设置字体属性文件来训练tesseract v 3.01 ocr引擎时遇到问题。根据3.01v,你需要设置一个字体属性文件。所述font_properties文件的格式是这样的:Font_Property问题,同时训练Tesseract-OCR V 3.01

和0或1的标志必须被用于指示属性。是否有人知道固定的,衬线的还是fraktur的含义?

,当我与我的font_properties运行文件,它引发以下错误enter image description here]![enter image description here

谢谢

回答

1

没有输入文件的Tesseract培训应该有自己的名字空间。

font_properties中的条目应该与图像文件的名称的fontname部分匹配;例如,如果font_properties具有uknumberplate,则图像的文件名应为eng.uknumberplate.exp0.tif。

+0

好,但你能告诉我什么文件名应该是font_properties?图像文件?和boxfile。即时通讯现在完全混淆:(谢谢 – 2012-07-25 15:53:57

+0

只需密切关注Tesseract培训维基(http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3)。字体名称应该是相同或接近的名称例如,对于Times New Roman斜体,图像的名称将是eng.timesi.exp0.tif。box文件的fontname部分和font_properties中的条目应与图像的条目匹配,例如:eng.timesi.exp0 .box和timesi分别为0 0 0 1 0。 – nguyenq 2012-07-25 23:31:42

+0

您对此有何看法?http://stackoverflow.com/questions/11674288/what-files-should-be-included-in-the-tessdata-folder -after培训,正方体 – 2012-07-26 17:38:45

1

固定(或等宽),serif和Fraktur是标准的字体描述 - 你可以看一下他们意思是维基百科。

关于你的错误,确保你正确地正确地格式化了你的font_properties文件,正如在下面的Training Tesseract 3教程中所概述的。如果你只练一种字体,该文件应包含一个行,你的情况

times_new_roman 0 0 0 1 0

您还没有包括你放什么在你的font_properties文件,但要注意你的字体名称不应该有空格!

http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

+0

uknumberplate 0 0 0 1 0这是我得到它。但它一直在抛出相同的错误 – 2012-07-24 13:46:12

0

您必须在命令中放入font_properties.txt,但随后会在窗口中引发异常,但它会查找字体属性文件。