2012-12-05 104 views
-1

enter image description here为什么tesseract失败此图像?

我试过在这张图片上的tesseract和一些带矩形内文字的扫描图片。但每次都会有一些垃圾文本作为输出失败。并纠正没有框周围的文字。请告诉我如何处理图像或tesseract?请帮助

+0

后无论你已经试过.. –

+0

我曾尝试用去除其像素值的矩形。 –

+0

he he:D .. ithe marathi允许ahe ka? btw mala yacha uttar mahit nahi kaaran mi tesseract var kaam kela nahi。抱歉! –

回答

0

正方体的图像转换分级前为灰度,所以粉色系很可能被拾起为文本。

仅提取从图像中黑色像素,并且你应该罚款。您可以使用ImageMagick

+0

还,但结果是一样的。 Tesseract没有穿透外框。我该怎么办??? –

+0

你需要删除盒子,而不是让它们变黑。 – Osiris

+0

是的,但我会怎么做? –

0

正如之前所说的,你应该得到这样做OCR前摆脱粉色系(他们仍然有用 仿佛字符边界)

一旦你extacted您gliphs和二元化他们(转换为位图),您可以启动到 使用tesseract就可以了。请记住,tesseract使用形状提取方法并依赖于字典支持 - 您可以通过不变时刻获得更好的结果(和更快的处理时间),如Hu

如果您对java base方法感兴趣,那么这里是我们的OCR库这只是在做纯Java(可移植到其他语言):

http://sourceforge.net/projects/javaocr/

+0

谢谢,但你能告诉我图像处理方法来删除或检测这些盒子因为我必须处理与这样的领域的图像。 –

+0

这是基本的图像处理的东西。遍历图像并检查像素的颜色 - 如果他们的色调已关闭,则将其丢弃。你也可以计算积分inmages(在同一个y坐标中的所有粉红色像素的总和 - 它会给你峰值,你必须切割宝石),我会建议让你的冈萨雷斯(或类似的书)。您还可以看看javaocr,项目提供的样品有可能是你 –

+0

好,谢谢我wiil尝试DAT一些线索 –