2017-06-02 136 views
0

我对通过在C++ API中调用AllWordConfidences()函数可以获得的Tesseract OCR置信度值有一些疑问。Tesseract OCR的置信度值

  1. 什么是置信值(由正方体API返回)和如何正方体计算价值?(喜欢根据什么因素)?

  2. 有没有可能改变tesseract的准确度?

任何人都可以帮助我解决这些问题吗?谢谢。

回答

1

我在其他OCR软件(特别是ANPR软件)中使用了类似的指标。如果我没有记错,总体上有两个信心因素;一个是0-> 100%置信因子,另一个是0-> X值,用作各种级联置信因子的聚合。
这个值是任意的,所以我建议使用0-> 100%的值。还要注意每个角色都应该有一个可信度因子。

通过评估轮廓线/边缘的清晰程度,字符中检测到的形状与预期形状的接近程度以及选择一个字符与另一个字符的决定有多接近,计算出这些指标。 IE OCR在'p'和'b'之间选择比'Q'和'O'更容易。

“改善”这些指标的唯一方法就是训练探测器!所以要准备好大量有效的数据。您还需要使用Tesseract培训工具的耐心 - 我发现它们是75%的噩梦。

祝你好运!