我正在寻找一个OCR解决方案来处理PDF和照片。处理过的文本应该被解释为我们可以从中获取特定的数据,因此我们可以将其链接到某些字段。上传的pdf和图片将始终包含所有必要的数据,但模板/布局可能会有所不同。我可以给出的最好的例子是处理发票和标注公司名称,执行工作,财务细节等。OCR标签匹配
我已经看过Tesseract,这似乎是一个很好的OCR,但我不知道如何可以提取某些标签出来了。我不认为'布局分析'是我正在寻找的,是吗? Tesseract也不适用于下面的要求。
文档处理需要被整合在:
- 现有的HTML 5网站Javascript编写的
- IOS和Android应用程序。该应用程序不应该要求互联网连接的功能。所有处理都必须在设备本身上进行,才能脱机。该应用程序可以根据在后端执行的培训自行更新。
我在寻找开源和付费解决方案。
请参阅[** Are On On-Topic **](https://stackoverflow.com/help/on-topic)以及哪些[**不是On-Topic **](https:/ /stackoverflow.com/help/dont-ask) – Nope
我有类似的需求,这是一个很好的问题。 OCR特别适用于智能设备。请分享您找到的任何内容。感谢您发布一个好问题。 – Jeb50