我正在使用OCR输出,并且正在搜索其中的特殊字词。用于OCR的字距算法
由于输出不干净,我根据低于特定阈值的单词距离查找与我的输入相匹配的元素。
但是,我觉得Levenshtein距离或汉明距离并不是最好的方式,因为OCR总是会犯同样的错误:I为1,0,O为O,Q为O ......并且这些“例如,“经典”错误似乎不如“A for K”重要。因此,这些距离不关心字符外观差异的大小(低/高)。
是否有任何字距离算法,专门为OCR,我可以使用,将更好地适合我的情况?或者,我应该根据人物的视觉差异凭经验实施我的自定义单词距离吗?
如果你曾经阅读过tesseract源代码,你会发现它特殊的处理案例很多 –
你在64位JVM上使用tesseract ocr吗? – manu
@manu不,我使用ABBYY FineReader。 – zenbeni