Tesseract OCR - 手写字体

我试图使用Tesseract-OCR来检测纯文本图像的文本，但这些文本有一个手写字体，称为日记。Tesseract OCR - 手写字体

例子：

enter image description here

结果是不是最好的：

千里马！（35）

是否有任何可能改善结果或确切得到确切的结果？

来源

2012-01-04 Poru

像安德鲁现金提到，这将是非常难以进行OCR，因为它拥有多项下一字交汇的是t字母。

对于结果改进，您可能想要尝试更精确的SDK。看看ABBYY Cloud OCR SDK，它是ABBYY最近推出的基于云的OCR SDK。它处于测试阶段，所以现在它完全免费使用。我工作@ ABBYY，如果需要，我们可以为您提供有关我们产品的更多信息。我送你连接到我们的SDK中的图像，并得到这样的响应：

Maximal size: lall (35)

来源

2012-01-10 09:18:06 Nikolay

为了公平起见，问题标题中提到的Tesseract言下之意，他询问如何与正方体执行此* *。 – Skrylar 2013-11-11 16:10:16

我很惊讶Tesseract做得很好。通过一点训练，你应该能够训练小写字母'l'来正确识别。

您遇到的主要问题是大T字符的顶部。水平线延伸跨过2个（可能是3个）其他字符单元格，这会在任何OCR引擎尝试将字符分割为识别时造成问题。在这种情况下，培训可能会有所帮助。

接下来的问题是。和：非常轻/薄，可能在OCR开始之前通过图像预处理被移除。

总体而言，使用Tesseract改善结果的唯一机会是调查培训。这里有一些可能有用的链接。

Alternative to Tesseract OCR Training?
Tesseract OCR Library learning font
Tesseract confuses two numbers

来源

2012-01-07 02:53:16

Tesseract OCR - 手写字体

回答

相关问题