模糊字符串匹配

在某些图像上运行光学字符识别后，我得到近似文本。通常这种认可不是很好。例如，实际的文本“DATE”来自“DHTE”或“0HTE”。基本上我需要识别和提取每行中的数据，所以我不想要完美的识别，只是足以识别日期行。我试图计算Levenshtein编辑距离，但不幸的是，这往往会给DATE和TIME带来类似的值。目前，我正试图探索是否可以使用正则表达式来匹配数据模式。模糊字符串匹配

有没有更好的匹配过程的方法/算法？幸运的是，我的这套词不是很大。

（我使用OCR和Groovy/Java进行算法的Tesseract）

来源

2011-07-10 aldrin

这其中有一些很酷的算法 http://secondstring.sourceforge.net/

这是一个基本的在StringUtils的 levenstein distance

来源

2011-07-10 09:07:19 Pablo

模糊字符串匹配

回答

相关问题