2012-03-02 75 views
3

我开始了一个简单的项目,它必须获取包含带上标的文本的图像,然后使用OCR(目前我使用的是tesseract),它必须识别上标字符+正常字符。例如,我们有一个化学方程式,如Cl2(2是上标),但是当我使用ocr识别它时,它会给我Cl2(全部在一行中)。使用OCR识别上角字符

那么,什么是这个问题的解决方案?是否有任何其他OCR API能够读取上标?

谢谢。

回答

4

非常好的问题触及任何OCR系统的更先进的功能。

首先,要确保你不要忽略,即使它可能是有一个OCR系统的功能。请务必查看您的结果测试,而不是纯TXT格式,但在某种可接触到文本的查看器中。 TXT浏览器(例如Windows上的记事本)通常不支持上标/下标字符,因此即使OCR为您提供正确的字符,您的查看器也可能已将其转换为显示它。如果您正在以编程方式访问文本结果,那么这不是一个问题,因为直接访问它时应该得到正确的下标字符值。请注意,观众必须支持它才能真正看到它。如果您消除了这种可能的后处理转换并确保没有从OCR返回下标,那么它可能不支持它。

就像在该文本框中,在你原来的问题,你想给我们一个标字符的例子,但这个文本框不接受它,即使你可以复制/它粘贴到其他地方。

许多OCR会看到标为任何其它普通字符,如果他们能看到它。您的使用OCR需要具备实际生成上标/下标的技术能力,并且其中很多都有,但它们往往是商业OCR系统,这并不令人惊讶。

我回答这封信之前,做了一个小的测试用例。我为我的测试生成了一些带有上标/下标示例的图像(当然,EMC2是第一个想到的例子:)。
你可以在这里找到我的测试图像: www.ocr-it.com/documents/superscript_subscript_test_page.tif

而且全部采用默认设置,但出口到富文本格式,如MS Word .DOC处理这一形象通过OCR-IT OCR Cloud 2.0 API

你可以在这里找到我的测试图像: www.ocr-it.com/documents/superscript_subscript_test_page_result.doc

还要注意:如果你有兴趣来提取标/下标字符,要分开注意你的图像质量,比你更会与一个典型的文本。这些字符很小,你需要足够的细节和分辨率来实现下降的OCR质量。即使在300 dpi图像下扫描,由于像素太少,有时也会出现小字符问题。如果你正在考虑移动和数码相机,这变得更加重要。

披露:我的专长是为不同规模的公司实施内部OCR解决方案。我的公司是WiseTREND。如果我可以进一步协助,请直接与我联系。

+0

我发现你提到的链接目前无法正常工作。没有内容。如果您能为我提供连接空间,我想就此问题与您联系。 – 2016-06-23 09:36:45

+0

Arpit,是的,链接被加班打破。如果时间允许,我会尽力恢复。如果你可以直接在wisetrend网站的ilyae或者5107549866联系我,或许更容易。我会尽力帮助你解决你面临的一个具体问题。 – 2016-06-29 01:17:23