2017-01-10 41 views
0

我们通常会以相同的格式从客户那里收到大量自行开票发票,我需要将其操作为特定的Excel格式以导入到我的会计系统中。PDF以优化自定义脚本

这样做最好的编码语言是什么?

感谢,

回答

0

这听起来像棘手的部分是走出PDF的信息。为此,您可以使用OCR。完成后,您可以使用VBA(Office自动化)将其加载到Excel中。

大多数OCR API不仅返回文本,还返回单词的坐标(边界框)。下面是自由OCR.space OCR API一个例子:

的API输出是这样的JSON响应:

{ 
    "ParsedResults": [ 
    { 
     "TextOverlay": { 
     "Lines": [ 
      { 
      "Words": [ 
       { 
       "WordText": "TEXT", 
       "Left": 279, 
       "Top": 89, 
       "Height": 40, 
       "Width": 107 
       } 
      ], 
      "MaxHeight": 40, 
      "MinTop": 89 
      }, 
      { 
      "Words": [ 
       { 
       "WordText": "WALKING", 
       "Left": 233, 
       "Top": 144, 

具有相同特征的其他API是谷歌云愿景,微软认知服务和ABBYY。

作为下一步,您可以解析JSON文件并查找某个x/y范围内的信息并将其分配给Excel中的某些字段。

+0

谢谢,我会给这个去 –