用于tesseract的Python准确性

我已将tesseract ocr转换图像文件转换为字符串。用于tesseract的Python准确性

现在我有出去放

我如何比较原始PNG文件和输出文本文件accuarcy是否正确

basewidth = 2700 
img = Image.open('D:OCR\\page1.png') 
wpercent = (basewidth/float(img.size[0])) 
hsize = int((float(img.size[1])*float(wpercent))) 
img = img.resize((basewidth,hsize), PIL.Image.ANTIALIAS) 
img.save('page1_zoom.png') 
print(image_to_string(Image.open('D:\page1_zoom.png')))

来源

2017-03-07 Venkatesan

您需要手动注释数据。 – erip

“比较原始PNG文件和输出文本文件的准确性是否正确”是什么意思？您是否尝试使用OCR验证OCR？通常你会手动验证这种事情。 – Chris

您正在讨论这个问题 - 为了验证OCR，您需要另一个更准确的OCR - 您没有这个问题。这意味着你手动验证它。 – sashoalm

如何检查的东西是准确的？

当然，您将需要一些手动基准/金色数据来比较结果。您将需要您的测试数据或至少需要验证的参数。

Test cases could be something like: 
1. Whole textual data 
2. No of lines 
3. No of Paragraphs 
4. Position of text

正方体VS谷歌OCR：

如果你想测试的Tesseract精度与其他OCR那么你可以尝试谷歌OCR，让比正方体更好的结果（虽然它是基于它）

正方体培训：

Tesseract does provide feature of training to improve the accuracy of results.

来源

2017-03-07 13:07:10

用于tesseract的Python准确性

回答

相关问题