2011-07-10 145 views
1

在某些图像上运行光学字符识别后,我得到近似文本。通常这种认可不是很好。例如,实际的文本“DATE”来自“DHTE”或“0HTE”。基本上我需要识别和提取每行中的数据,所以我不想要完美的识别,只是足以识别日期行。我试图计算Levenshtein编辑距离,但不幸的是,这往往会给DATE和TIME带来类似的值。目前,我正试图探索是否可以使用正则表达式来匹配数据模式。模糊字符串匹配

有没有更好的匹配过程的方法/算法?幸运的是,我的这套词不是很大。

(我使用OCR和Groovy/Java进行算法的Tesseract)

回答