0
我有一个图像这样超正方体OCR给出错位输出文本
SOME STUFF HERE
DEPARTMENT OF PATHOLOGY
Name : MR. V. HUGO Age/Sex : 31 Y(s)/Male
Bill Date : 28-Apr-2016 08:48 AM UMR No : ODC61995
Sample Date : 28-Apr-2016 09:38 AM Bill No : BIL130579
Report Date : 28-Apr-2016 04:21 PM Result No : RES378704
AND SOME MORE STUFF HERE
上述图像的形状是矩形,其中长度大于宽度。我裁剪上述图像到图像,我需要阅读的部分和它看起来像这样
Name : MR. V. HUGO Age/Sex : 31 Y(s)/Male
Bill Date : 28-Apr-2016 08:48 AM UMR No : ODC61995
Sample Date : 28-Apr-2016 09:38 AM Bill No : BIL130579
Report Date : 28-Apr-2016 04:21 PM Result No : RES378704
在裁剪后的图像的宽度大于长度。但我得到的输出是错位的
Name
Bill Date
Sample Date
Report Date
MR. V. HUGO
28-Apr-2016 08:48 AM
28-Apr-2016 09:38 AM
28-Apr-2016 04:21 PM
Age/Sex
UMR No
Bill No
Result No
31 Y(s)/Male
ODC61995
BIL130579
RES378704
任何人都可以请解释为什么会发生这种情况吗?没有裁剪,输出是正确对齐的,但错误更多。我的想法是仅在图像的相关部分运行Tesseract OCR。我有和没有Python包装一样的结果。
P.S. - 在将图像传递到Tesseract之前,我会对图像应用侵蚀/扩张,但没有裁剪,导致类似于上面的错位输出。