我正在将扫描文档的大量集合数字化,并使用Tesseract 3作为我的OCR引擎。它的输出质量平庸,因为它经常在实际文本之前和之后产生垃圾字符,并在文本中产生拼写错误。OCR纠错算法
对于前面的问题,似乎必须有策略来确定哪些文本实际上是文本,哪些文本不是(大部分文本是人的名字,所以我寻找的解决方案除了看词典中的单词)。
对于错字的问题,大部分错误从字母几个错误分类干(代l
,1
,并且I
对彼此,例如),而且好像应该有方法来猜测哪些单词拼写错误(因为英语中没有太多单词在它们中间有一个“1”),并且猜测适当的修正是什么。
这个空间的最佳实践是什么?有这样的事情的算法的免费/开源实现?谷歌已经收到了大量的论文,但没有多少具体。如果没有可用的实施方案,那么许多论文中的哪一个将成为一个好的起点?
我有这样的问题,没有任何经验,但请你分享索姆e你找到的链接?他们会做出非常有趣的阅读。 – 2011-04-14 08:15:09
@coffee这里有几个:[非交互式OCR纠正千兆级数字化项目](http://www.springerlink.com/content/l2724747mt78039l/),[使用学习的OCR错误的低成本校正多引擎环境](http://www.google.com/research/pubs/archive/35525.pdf),[在上下文中自动OCR纠错的统计方法](http://www.ldc.upenn .edu/acl/W/W96/W96-0108.pdf)和[文凭论文:OCR错误的无监督后校正](http://www.l3s.de/~tahmasebi/Diplomarbeit_Niklas.pdf)。 – 2011-04-14 14:23:04
@coffee这些主要处理修正拼写错误,而不是消除输出中的非文本。 – 2011-04-14 14:23:23