5
我有一些糟糕的OCR软件生成的文本。什么算法可以将字符分组为单词?
输出包含单词和空格分隔字符的混合,应该将其分组为单词。例如,
Expr e s s i o n Syntax
S u m m a r y o f T e r minology
应该已经
Expression Syntax
Summary of Terminology
什么算法可以组字符成词?
如果我用Python,C#,Java,C或C++编程,那么哪些库提供算法的实现?
谢谢。
使用一些nltk语料库并检查组合可能会有所帮助。不知道你最终会得到确切的结果。这种贪婪的做法可能会失败,因为这些词是大词汇的一部分。然而,没有办法确定性地选择大的或部分的单词。这可能是我猜测的一个起点。 – arunk2
我觉得你使用OCR的痛苦。你有没有使用动态编程算法?最终的想法是让程序做出如何分组的决定,并且可能必须以递归方式检查这些决定,每次迭代检查英语字典中的单词以验证它是否是有效的单词。 – Miket25