2017-08-04 73 views
0

我在.tar文件中的文件.tar文件pdf文档包含,我能够成员从##。tar文件中提取,并且我也使用蒂卡解析器解析PDF文件,收到文件未找到错误。如何读取使用python

with tarfile.open(os.path.join(DEFAULT_PATH,filename), "r") as tarf: 
    for members in tarf.getmembers(): 
     f = tarf.extractfile(members) 
     parsed_pdf = parser.from_file(f) 

,我不想提取PDF中的另一个目录,并从.tar文件刚读

回答

0

能够通过使用下面的代码上面的解决

 for members in tarf.getnames()[1:]: 

      tarf.extract(members, './full_text') 
      parsed_pdf = parser.from_file(os.path.join(DEFAULT_PATH,filename))