2013-06-26 143 views
1

我正在尝试培训过程,但我甚至不明白如何开始。我想训练阅读它的编号。我的图片来自真实世界,所以在阅读过程中效果不佳。有人可以向我解释培训Tesseract OCR吗?

它说我必须有一个“.tif”图像的例子...是每个数字(在这种情况下)的单个图像或具有很多不同类型的数字(相同的字体,虽然)?

那么makebox呢?该命令在这里不起作用。

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

有人能更好地解释我,至少如何开始?

我看到一些软件能够更快地完成这项工作,但我尝试了一个(SunnyPage 1.8),但并不是免费的。任何人都知道有这样的免费软件吗?或者一个很好的教程?

使用Tesseract 3,Windows 8(32位)。

回答

3

耐心遵守培训维基百科项目网站是非常重要的。如果需要多次。它是一个开源库,并且在不断发展。

你将不得不创建一个训练图像(tiff)与很多不同类型的数字可能应该有你希望引擎识别的所有数字。

请考虑发布确定的错误消息,你有使用框。

我认为Tesseract是最好的免费解决方案。你必须继续工作,并寻求社区的帮助。

Cédrichere有一篇很好的文章解释了Tesseract的培训过程。

+2

请注意,[只有链接的答案](http://meta.stackoverflow.com/tags/link-only-answers/info)不鼓励,所以答案应该是搜索解决方案的终点(与另一个引用的中途停留时间相比,这些引用往往会随着时间推移而变得过时)。请考虑在此添加独立的摘要,并将链接保留为参考。 – kleopatra

+1

谢谢,如果您的回答可能引用或总结Cédric的帖子的主要部分,万一链接发生故障,这将是非常棒的。 ([见指南](http://stackoverflow.com/help/how-to-answer)) – odony

+1

链接关闭... – Fab

0

一个很好的免费OCR软件是PDF OCR X,它也是基于Tesseract。我试图从我在1200dpi扫描过的德语中复制我的笔记,结果是值得赞扬但不完美的。我发现这个网站 - http://onlineocr.net - 更准确。如果你没有注册,它允许从大多数图像格式(BMP,PNG,JPEG等)和PDF最大4mb文件大小。它可以将它们输出为Word文件,Excel文件或txt文件。 希望这有助于。