tabula

    0热度

    1回答

    我编写了一个简单的Python服务器,其中包括Java库Tabula的tabula-py包装器。在本地测试之后,使用相应的客户端并确定一切正常,我尝试在vanilla Ubuntu Server 16.04 VBox实例上运行它。正如我正在运行时错误(下同),我试图使用Python CLI一个简单的测试: >>> import tabula >>> df = tabula.read_pdf("h

    0热度

    1回答

    我有一张带有表格的pdf,并试图将该表格放入Pandas中。提取pdf表格非常困难,但我发现tabula的效果最好。这是我见过的最好的,但仍然不完美。我有这样的PDF表: 注意的表头,以及他们如何有时运行到下一行,一般都不会好看。我面临着真正的问题,因为我看到的所有解决方案都要求首先创建一个更好的方法来创建数据框。这个数据框是我能得到的最好的数据,但是如果你知道如何从tabula中获得更好的数据,

    -1热度

    1回答

    我试图从一系列的PDF文件中提取表,但不能使塔布拉-PY工作。我一直试图通过Windows操作系统上的Jupyter笔记本来使用它。不幸的是,我得到了相同的 “FileNotFoundError” 每次我尝试使用read_PDF时间 ()。 从我在网上找到到目前为止,错误似乎试图运行塔布拉的java文件时,要发起。我已经正确安装了java。 任何帮助,这将不胜感激。 这是我试图运行代码:对于没有设

    0热度

    1回答

    我不断收到此错误。我的工作 - 的Mac塞拉利昂10.8 的Python 3.6.2 塔布拉1.0.5 Traceback (most recent call last): File "/Users/Sam/Desktop/mitch test/test.py", line 22, in <module> tabula.convert_into(root.fileName, "

    0热度

    1回答

    我们可以通过指定其坐标来从PDF文档中提取表格。对于Windows用户,为了获得坐标,必须将PDF文件上传到Tabula网页,然后导出包含坐标的脚本,然后将坐标输入到您的代码中。对于Mac用户,您只需使用预览应用程序和裁剪检查器即可。我只是想知道是否有任何第三方程序或插件提供给Windows用户?我认为这将是在以下情况下派上用场: 当你没有上网。 我认为预览应用程序会更准确,因为我经历了从Tabu

    0热度

    1回答

    我在python中有这个代码,我用这个代码打开子进程模块,并继续从那里获取数据,但我无法弄清楚如何OCR文件来自不同的目录。我已经尝试把完整的文件路径放在代码中文件名应该在的目录中,但它似乎没有办法。我怎样才能指定从Tabula中获取文件的目录? var = ['java', '-jar', 'tabula-0.9.0-jar-with-dependencies.jar','-p', '1', '

    1热度

    1回答

    tabula.convert_into(filename_final, (filename_zero + '.csv'), output_format="csv", pages="all") 我该如何去转换第2页到最后?从第1页到其余页面的转换“区域”发生变化。 我使用Python封装器tabula-py 在此先感谢!

    0热度

    1回答

    我试图提取PDF文件的“内容”页面(例如页面2)作为表格,并提出一个跟踪项目与其对应起始页码的数据框。有人建议使用“Tabula”。我试了几行,但似乎得到错误,无论是找不到read_pdf模块或获得一个空的数据框。感谢任何帮助,使其发挥作用? from tabula import wrapper MYFILE = 'http://www.hkexnews.hk/listedco/listcon

    0热度

    1回答

    我想从PDF表中的数据,我使用下面的命令来获取表数据 java -jar tabula-java.jar -a 301.95,14.85,841.0500000000001,695.25 -t example.pdf 但在这两个列数据得到一些行混合, 所以我想指定获得完美数据的列坐标,但我不知道如何获得列坐标,所以任何人都可以用完美的命令来指导我,这会有所帮助。 在此先感谢!

    0热度

    1回答

    在tabula网页界面中,您可以选择多个坐标不同的表格,使用直接命令可以吗?