简单的答案是YES,你应该选择正确的工具。
我不知道开源能否在这些图像上获得接近100%的准确率,但根据这里的答案可能是的,如果你花时间在训练和解决表分析问题和类似的东西。
当我们谈论像ABBYY或其他类似的纪念OCR时,它会为您提供99%以上的准确度,并会自动检测表格。没有训练,没有任何东西,只是工作。缺点是你必须为此付出$。有些人反对说,对于开源而言,你付出了时间来设置它并保持 - 但每个人都在这里决定自己。
但是,如果我们谈论纪念工具,实际上有更多的选择。这取决于你想要什么。像FineReader这样的盒装产品实际上是将输入文档转换为Word或Excell等可编辑文档的目标。由于您实际上需要获取数据,而不是Word文档,因此您可能需要查看不同的产品类别 - 数据捕获,这本质上是OCR以及一些额外的逻辑,用于在页面上查找必要的数据。在发票的情况下,它可以是公司名称,总金额,到期日期,表格中的行项目等。
数据捕捉是一个复杂的主题,需要一些学习,但正确使用可以提供保证准确性,文件。它使用不同的规则进行数据交叉检查,数据库查找等。必要时可以发送数据以进行手动验证。企业广泛使用数据采集应用程序来每月输入数百万个文档,并且严重依赖于每天工作流程中提取的数据。
另外还有OCR SDK of course,它可以让你访问API来识别结果,你将能够编程如何处理数据。
如果您更详细地描述您的任务,我可以向您提供建议,哪个方向更容易走。
UPDATE
所以,你要做的就是基本的数据采集应用程序,但不是完全自动化的,使用所谓的“点击指标”的做法。市场上有许多类似的应用程序:扫描图像上的图像和操作员点击(或围绕图像绘制矩形),然后将字段填充到数据库。当要处理的图像数量相对较少时,这是一种很好的方法,而且手动工作负载不够大,无法证明全自动应用程序的成本(是的,有完全自动化的系统可以使用不同的字体,间距,布局,数量表格中的行等)。
如果您决定开发一些东西而不是购买,那么您需要的仅仅是选择OCR SDK。所有的用户界面你会写你自己的,对吧?最大的选择是决定:开源还是商业。据我所知,最好的开源代码是tesseract OCR。它是免费的,但可能在表格分析中遇到实际问题,但通过手动分区方法,这不应该成为问题。至于OCR的精确性 - 人们通常会训练字体的OCR以提高准确性,但这不适合您,因为字体可能不同。因此,您可以尝试展开并了解您将获得的准确性 - 这将影响手动工作量来纠正它。
Commertial OCR将提供更高的准确性,但会花费你的钱。我认为你应该反过来看看它是否值得,或者tesserack对你来说足够好。我认为最简单的方法是下载像FineReader这样的盒式OCR产品的试用版。您将很清楚OCR SDK中的准确性。
https://softwarerecs.stackexchange.com/questions/34358/program-to-generate-a-csv-file-from-an-image-containing-a-table – 2017-07-05 05:35:56