2016-02-25 33 views
0

我正在使用tesseract ocr为我的最后一年项目培训一门新语言。Tesseract OCR word-dawg不包含在combine_tessdata中

我从我的单词列表中创建了word-dawg。 但是,combine_tessdata结果是相同的,不管我是否包含word-dawg和wordlist或nor。所以我不确定我的训练数据中是否包含word-dawg和wordlist。

的输出是如下: 偏移为0型-1 偏移1型是140 偏移为第二类型是3726 偏移为3型是3904 偏移为4类型346848 偏移量类型图5是347329 偏移为6型是-1 偏移为7类型-1 偏移量类型8 -1 偏移量类型9 -1 偏移量类型10是-1 偏移量类型11是 - 1 类型12的偏移量为-1 类型13的偏移量为354078 类型的偏移量14是-1 类型15的偏移量是-1 类型16的偏移量是-1

我认为偏移量2是针对unicharambigs的。 任何想法哪个偏移量是word-dawg? 其余的抵消如何?

回答

1

可能是文件名称问题。以下是我的训练结果。 “-1”表示文件不存在。

Combining tessdata files 
Output vie.traineddata created sucessfully. 
TessdataManager combined tesseract data files. 
Offset for type 0 (vie.config    ) is -1 
Offset for type 1 (vie.unicharset   ) is 140 
Offset for type 2 (vie.unicharambigs  ) is 15877 
Offset for type 3 (vie.inttemp    ) is 21397 
Offset for type 4 (vie.pffmtable   ) is 1466247 
Offset for type 5 (vie.normproto   ) is 1468147 
Offset for type 6 (vie.punc-dawg   ) is -1 
Offset for type 7 (vie.word-dawg   ) is 1513182 
Offset for type 8 (vie.number-dawg   ) is -1 
Offset for type 9 (vie.freq-dawg   ) is 1589568 
Offset for type 10 (vie.fixed-length-dawgs ) is -1 
Offset for type 11 (vie.cube-unicharset  ) is -1 
Offset for type 12 (vie.cube-word-dawg  ) is -1 
Offset for type 13 (vie.shapetable   ) is 1594178 
Offset for type 14 (vie.bigram-dawg   ) is -1 
Offset for type 15 (vie.unambig-dawg   ) is -1 
Offset for type 16 (vie.params-training-model) is -1 
+0

这非常有帮助!谢谢! – KingOfMyHeart

+0

同时,你碰巧知道inttemp文件中的值是什么?所以有8个colums,看起来像这样 - 3400 0000 fbff ffff 0200 0000 3400 0000.每列代表什么? – KingOfMyHeart