我是tesseract的新手,并且与github页面中的不同目录有点混淆。遇到问题培训tesseract
tesserac-ocr代码库是我安装的。这在/ usr/local/share下安装了tessdata目录/ tessdata/
所以现在训练时的Tesseract我运行下面的命令 -
# tesseract img.tif img box.train
我收到以下错误
Tesseract Open Source OCR Engine v3.03 with Leptonica
Error opening data file /usr/local/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
显然它无法找到tessdata文件夹。
所以,现在我从github获得了tessdata目录(https://github.com/tesseract-ocr/tessdata)。然后将TESSDATA_PREFIX指向从github下载的tessdata。不会改变任何东西。我得到以下错误 -
Tesseract Open Source OCR Engine v3.03 with Leptonica
read_params_file: Can't open box.train
所以我的问题是应该指出什么tessdata? tesseract从训练命令中获得box.train的位置?
您是否创建并检查box.train文件?如果不是,则必须先用'tesseract img.tif img batch.nochop makebox'创建box.train。之后,如果您的角色被正确检测到,您将不得不检查箱子文件。 –