2012-07-14 60 views
-1

为了我个人的兴趣,我从我的研究中看到,开始自己的OCR并不是那么容易。不过,我希望听到有关如何实现不仅识别字符而且还以格式化字符串返回结果这一挑战的想法。 例如,我有一个表的图像(想象一下,它是用图像“|”和“_”被绘制直线):C#自定义OCR,返回一个格式化的字符串


|数,AnotherNumber |一些文本|


| 1,4 | Blah |


,并用无声的OCR后,我得到的结果为 “|号码,AnotherNumber | SomeText | \ n | 1,4 |布拉赫|” 任何想法,我怎么能实现这一点,以及我可以使用哪些可用的工具/库?我也想用Visual Studio 2010在C#中编写它。理想情况下,使用PDF可以使用不同的图像格式。我已经看了一些,但他们似乎不兼容,因为他们使用C++或C. 谢谢。 Alina。

回答

0

越来越OCR libaries是挺难 (当然只是如果你不喘气为它付出的),你可以试试这个,它不是免费的,但如果您有Office 2007: http://www.codeproject.com/Articles/41709/How-To-Use-Office-2007-OCR-Using-C

+0

唯一的问题是我我面对的是,我需要能够识别出画线的OCR作为“|” “_”类型的表格上的字符。那里是否有预煮的东西?或者,如果可以,我可以获得一个开放的库并使用这些功能进行扩展?谢谢。 – 2012-07-14 08:56:15

+0

如果可以,我也很乐意从头开始自己的OCR。在那种情况下,对我有什么用处? – 2012-07-14 08:57:38