2009-10-19 22 views
4

根据Wikipedia,“对拉丁文字的准确识别,打印文本现在被认为在很大程度上解决了应用程序在清晰成像可用的情况下的问题,如扫描打印文档。”但是,它没有引用。OCR不再是问题吗?

我的问题是:这是真的吗?目前的技术水平如此之好 - 对于英文文本的良好扫描 - 没有任何重大改进留下来了吗?

或者,这个问题的一个较不主观的形式是:现代OCR系统在识别高质量扫描的英文文本时有多准确?

+2

那么,你在维基百科阅读它,所以它必须是真实的。 – cletus

+2

这个编程如何相关? –

+7

因为这是一个编程问题? – cletus

回答

3

狭义地说,将足够高质量的二维位图分解为矩形,每个矩形都包含一组行为良好的预定义字体(参见Omnifont)中已识别的拉丁字符,这是一个解决的问题。

开始玩这些参数,例如偏心的未知字体,嘈杂的扫描,亚洲字符,它开始变得有点片状或需要额外的输入。许多着名的Ominfont系统不能很好地处理连字。

而OCR的主要问题是理解输出。如果这是一个解决的问题,谷歌图书将提供完美的结果。

5

我认为这确实是一个解决的问题。只要有C#C++Java上的OCR技术文章多如牛毛一看,等等。当然

的文章确实强调,脚本需要进行打字和明确的。这使得识别成为一项相对简单的任务,而如果您需要OCR扫描页面(噪音)或手写(扩散),它可能会变得更加棘手,因为还有更多事情需要调整。