2017-03-07 40 views
0

我已将tesseract ocr转换图像文件转换为字符串。用于tesseract的Python准确性

现在我有出去放

我如何比较原始PNG文件和输出文本文件accuarcy是否正确

basewidth = 2700 
img = Image.open('D:OCR\\page1.png') 
wpercent = (basewidth/float(img.size[0])) 
hsize = int((float(img.size[1])*float(wpercent))) 
img = img.resize((basewidth,hsize), PIL.Image.ANTIALIAS) 
img.save('page1_zoom.png') 
print(image_to_string(Image.open('D:\page1_zoom.png'))) 
+0

您需要手动注释数据。 – erip

+1

“比较原始PNG文件和输出文本文件的准确性是否正确”是什么意思?您是否尝试使用OCR验证OCR?通常你会手动验证这种事情。 – Chris

+0

您正在讨论这个问题 - 为了验证OCR,您需要另一个更准确的OCR - 您没有这个问题。这意味着你手动验证它。 – sashoalm

回答

1

如何检查的东西是准确的?

当然,您将需要一些手动基准/金色数据来比较结果。您将需要您的测试数据或至少需要验证的参数。

Test cases could be something like: 
1. Whole textual data 
2. No of lines 
3. No of Paragraphs 
4. Position of text 

正方体VS谷歌OCR:

如果你想测试的Tesseract精度与其他OCR那么你可以尝试 谷歌OCR,让比正方体更好的结果(虽然它是 基于它)

正方体培训:

Tesseract does provide feature of training to improve the accuracy of results.