2011-03-29 45 views
4

我想从以下提取位数:http://img96.imageshack.us/img96/5630/aelgg.pngC#OCR不能识别数字(正方体2)

它失败了,我得到一个的回报。我正在使用谷歌的tesseract 2,使用C#(开源C#包装),现在我想知道,这个图像太糟糕了,用于OCR?

因为imho的数字非常清晰。

您是否有任何其他的OCR引擎可以解决这个问题?

编辑

我也试图与Asprise OCRhttp://asprise.com/product/ocr/selector.php),但它无法解析图像太...

+0

可能您支付$ for的任何引擎都可以获取数字 - 例如Abbyy或Oce。 – 2011-03-29 15:47:25

+0

这是给我的公司。并且判断任务规模,我相信他们不会为此付出代价,我也不能为此付出代价。这是困境:/。但是你认为我的图像太糟糕了吗?让我们说*弱* ocr引擎? – CoolStraw 2011-03-29 15:50:17

+0

不是很糟糕,但我个人绝不会对任何严重的事情使用tesseract。这是一个陈旧,过时和越野车的引擎。 – 2011-03-29 15:52:31

回答

7

我建议调整大小。我在IE中把这个页面放大到200%,做了一个截图,把它打印成PDF并导入到我的使用tessnet的程序中。苔丝钉了它!除非我读了#错:-)

尽管信心= 140(如果您想知道,100以下是首选)。当然,当我尝试原始大小,我没有得到〜;我得到了大约一半的#s,一堆信件和其他垃圾。不够好,但更好。

t2似乎像图像一定的大小。

我的程序会执行处理以使其工作。建议使用.net GDI +转换为32位,使用插值模式调整高质量双三次。这似乎“填补了空白”。

玩大小的工作 - 我发现,太大或太小,和tesseract表现不同。

这两个问题都是预处理,这很容易,你会试试看;不过,我知道如何调整和插入;我不知道如何OCR!所以我愿意解决。

+0

我可以让您的代码用于重新处理图像质量,以便我可以插入它并进行测试吗?谢谢 – CoolStraw 2011-03-30 14:50:00

+0

@CoolStraw - 实际上,我用Alfred Bolliger的PrintKey 2000拍摄了IE8的屏幕截图,并用PDFMachineWhite免费版印刷了它,然后我的程序使用verydoc的pdf2vec自动将其转换为WMF,并使用VB.NET/GDI +渲染WMF,并将其尺寸,呈现在UI中,允许我拖动选择矩形并从弹出框中选择OCR,将单独的进程的片段保存为使用tessnet进行OCR的片段...(我不能用'不要抗拒!)不要那么努力。使用像这样的代码(http://www.bobpowell.net/highqualitythumb.htm)来调整大小只能放大,而不能缩小。 – FastAl 2011-03-30 17:46:54

+0

男人你摇滚我的世界男婴!非常感谢你解决了我的拦截问题! – CoolStraw 2011-03-31 09:40:59

1

您的图片的分辨率太低 - 96 DPI,也许它是一个截图。将其重新缩放到300 DPI,并且tessnet2应该能够识别它。