2012-01-04 241 views
1

我试图使用Tesseract-OCR来检测纯文本图像的文本,但这些文本有一个手写字体,称为日记Tesseract OCR - 手写字体

例子:

enter image description here

结果是不是最好的:

千里马! (35)

是否有任何可能改善结果或确切得到确切的结果?

回答

0

像安德鲁现金提到,这将是非常难以进行OCR,因为它拥有多项下一字交汇的是t字母。

对于结果改进,您可能想要尝试更精确的SDK。看看ABBYY Cloud OCR SDK,它是ABBYY最近推出的基于云的OCR SDK。它处于测试阶段,所以现在它完全免费使用。我工作@ ABBYY,如果需要,我们可以为您提供有关我们产品的更多信息。我送你连接到我们的SDK中的图像,并得到这样的响应:

Maximal size: lall (35) 
+2

为了公平起见,问题标题中提到的Tesseract言下之意,他询问如何与正方体执行此* *。 – Skrylar 2013-11-11 16:10:16

3

我很惊讶Tesseract做得很好。通过一点训练,你应该能够训练小写字母'l'来正确识别。

您遇到的主要问题是大T字符的顶部。水平线延伸跨过2个(可能是3个)其他字符单元格,这会在任何OCR引擎尝试将字符分割为识别时造成问题。在这种情况下,培训可能会有所帮助。

接下来的问题是。和:非常轻/薄,可能在OCR开始之前通过图像预处理被移除。

总体而言,使用Tesseract改善结果的唯一机会是调查培训。这里有一些可能有用的链接。

Alternative to Tesseract OCR Training?
Tesseract OCR Library learning font
Tesseract confuses two numbers