OCR标签匹配

-2

我正在寻找一个OCR解决方案来处理PDF和照片。处理过的文本应该被解释为我们可以从中获取特定的数据，因此我们可以将其链接到某些字段。上传的pdf和图片将始终包含所有必要的数据，但模板/布局可能会有所不同。我可以给出的最好的例子是处理发票和标注公司名称，执行工作，财务细节等。OCR标签匹配

我已经看过Tesseract，这似乎是一个很好的OCR，但我不知道如何可以提取某些标签出来了。我不认为'布局分析'是我正在寻找的，是吗？ Tesseract也不适用于下面的要求。

文档处理需要被整合在：

我在寻找开源和付费解决方案。

2017-09-08 Péé

请参阅[** Are On On-Topic **]（https://stackoverflow.com/help/on-topic）以及哪些[**不是On-Topic **]（https：/ /stackoverflow.com/help/dont-ask） – Nope

我有类似的需求，这是一个很好的问题。 OCR特别适用于智能设备。请分享您找到的任何内容。感谢您发布一个好问题。 – Jeb50

我建议你从一个在线的OCR API解决方案开始。有几个很好的，你可以在这里比较一个地方：Google Cloud Vision vs Microsoft Azure vs free OCR.space。

从这些，OCR.space是唯一包括支持扫描PDF文件。

还有Abbyy OCR SDK这是非常好好但是很贵。

2017-09-11 06:13:04

相当不错，比较。我有一个肖像文字图像，不知何故，在将它旋转90度**到风景之后，所有英文单词都变成垂直。尽管如此，.space比MS要好得多，而Google是最出色的赢家，因为它几乎可以读出所有95％的准确率。 – Jeb50

回答