2017-02-17 23 views
0

我需要关于tesseract的建议。我尝试使用Tesseract,但结果并不完美。很多信息缺失。我想扫描法国车辆的注册证书,我必须将数据恢复到数据库中。你可以在文件下面找到它是法国注册证书。是否有可能检测到本文档中的每个区域并将这些信息保存在数据库中?我已经在互联网上阅读过,只有Tesseract才能检测到区域?如何使用Tesseract从车辆认证卡获取文本区域

你有例如区域A,B,C.1,D.2.1。如何检测/扫描每个区域并将这些信息插入数据库中?

例子: https://www.ecartegrise.fr/wp-content/uploads/2013/03/nouvelle-carte-grise-specimen.jpg

我想做到这一点: http://www.adoc-solutions.eu/images/Documentations/cartes-grises.png

如何休养生息每个区域的文本并插入到数据库中呢?

感谢您的帮助

尼古拉

回答

0

其实我工作的一个项目相似,你我的建议 OCR技术?光学字符识别 有几个OCR工具可以从pdf格式或图像中提取数据,这要归功于OCR,这里列出了我推荐的OCR工具: -Convertio -PDFMiner:PDF2txt-PDF2Word -Tabula:从表中提取数据 -Abby FineReader 14 -DataWatch

,如果您有任何补充信息,请做份额

0

我正在提取PDF表格和表格数据相当长的一段时间。我认为解决您的问题的方法是首先检测写入文本的所有区域,然后创建一个到列的映射。

如果注册表单在本质上是静态的,意味着如果特定字段的文本区域是固定的,那么您可以创建一个特定于您的问题的模板,然后从这些定义的坐标中裁剪图像,然后尝试应用tesseract。

Tesseract不是100%正确的,所以为了提高准确性,您可以在数据上进行训练。