2016-12-14 31 views
1

我使用pdfMiner解析PDF文件,将它作为我的python脚本中的库使用。pdfminer - 访问PDF表

在这些PDF的大部分都有一张表,其中一列被命名为“公司”。

有没有办法: 1)检测PDF中该表的存在。 2)获取所有公司名称(即表格第二列中的所有条目)。

感谢您的帮助 AC

回答

0

我迄今发现的最好的方法是使用HTMLconverter类的pdfminer库。这使您能够以HTML格式转换PDF,并且更容易找出表格,行和列。至少在我的情况下:它可能适用于PDF文件中的各种表格。