遇到问题培训tesseract

我是tesseract的新手，并且与github页面中的不同目录有点混淆。遇到问题培训tesseract

tesserac-ocr代码库是我安装的。这在/ usr/local/share下安装了tessdata目录/ tessdata/

所以现在训练时的Tesseract我运行下面的命令 -

# tesseract img.tif img box.train

我收到以下错误

Tesseract Open Source OCR Engine v3.03 with Leptonica 
Error opening data file /usr/local/share/tessdata/eng.traineddata 
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. 
Failed loading language 'eng' 
Tesseract couldn't load any languages! 
Could not initialize tesseract.

显然它无法找到tessdata文件夹。

所以，现在我从github获得了tessdata目录（https://github.com/tesseract-ocr/tessdata）。然后将TESSDATA_PREFIX指向从github下载的tessdata。不会改变任何东西。我得到以下错误 -

Tesseract Open Source OCR Engine v3.03 with Leptonica 
read_params_file: Can't open box.train

所以我的问题是应该指出什么tessdata？ tesseract从训练命令中获得box.train的位置？

来源

2015-08-16 user220201

您是否创建并检查box.train文件？如果不是，则必须先用'tesseract img.tif img batch.nochop makebox'创建box.train。之后，如果您的角色被正确检测到，您将不得不检查箱子文件。 –

一个最愚蠢的事情，你可以做新手尽力培养正方体;-)

下一页：3.03版本是不是官方github.com回购（顺便说一句：3.03从未正式发布...它只是Ubuntu发布的。）

下一步：如果您安装了tesseract（源代码）box.train已安装。你从Ubuntu packages/repo安装（我不这么认为，因为在这种情况下，tesseract不会使用/ usr/local/...），你应该联系packager如何打包tesseract。

来源

2015-08-16 18:53:41 user898678

他们从code.google.com移至github，但未更新其文档。问题是他们改变了代码打包和分发的方式。我从源代码安装它。 – user220201

转到github.com记录为其他项目 - 在主页上。 – user898678

遇到问题培训tesseract

回答

相关问题