2013-05-16 80 views

回答

3

对于那些可能仍然感兴趣的人。 在Tesseract的网站上,有针对不同文件的标准训练数据集。

https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100

程序培训此处描述(3.01版本)

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

在多维数据集的情况下,与正方体相比另一个引擎,它消耗的资源较多,速度较慢,但​​给更好的结果。

数据文件 - 应该最终导致(被合并到)受训数据文件的文件集。

2

有通过对正方体-OCR-extradocs项目wiki立方体引擎模式所需的各种培训文件的解释:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube

在那里,你可以找到关于如何详细的(但不完全)信息在Cube模式下创建必要的培训文件。还有就可能是有用的神经网络文件格式的一些信息:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat

立方模式往往会通过神经网络,而不是适应性分类给你更好的识别结果。

我从来没有创建过自己的Cube培训文件,所以我不能给你更多关于如何创建这些文件的详细信息。