在谷歌的tesseract-OCR中使用哪种算法进行识别？

在谷歌的tesseract-OCR中使用哪种算法进行识别？它是神经网络吗？在谷歌的tesseract-OCR中使用哪种算法进行识别？

2017-06-07 Chiro Odhora

This paper in the tesseract source提供了该技术的深入概述。

值得注意的是：

斑点被组织成文本行，并且行和区域分析固定的间距或比例文本。

[...]

识别然后作为一个双向过程进行。在第一遍中，尝试依次识别每个单词。作为训练数据，将每个被满意的词传递给自适应分类器。然后，自适应分类器将有机会更准确地识别页面下方的文字。

[...]

一旦文本行已经发现，基线配备更精确使用二次样条曲线。

[...]

基线为通过划分斑点成组与合理连续位移的原始直线基线拟合。通过最小二乘拟合将二次样条拟合到人口最多的分区（假设为为基线）。

该论文没有明确说明它是否使用神经网络，但给出了我认为可能的内容，至少对于它的一部分。

有关线上查找的更多信息，请参阅R. Smith，“A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation”，Proc。第三诠释。 CONF。关于文件分析和识别（第2卷），IEEE 1995，第1145-1148页。

来源

2017-06-07 19:24:56 msanford

感谢您的链接:) –

在谷歌的tesseract-OCR中使用哪种算法进行识别？

回答

相关问题