2011-11-04 23 views

回答

0

pyPdf模块可能会有所帮助。

+0

它没有。 pyPdf需要一个.seek()能够的对象,除此之外,它看起来像pyPdf将整个对象流加载到内存中。所以我需要首先下载整个文件,除非我错过了你的观点。 – andreliebschner

+0

我相信它可以读取部分文件。只下拉部分资源是http的工作(做一个头部请求,验证远程服务器是否接受范围,然后进行范围特定的get-request,然后对结果运行pdf解析器,如果整个页面不是'吨检索,然后请求下一个范围)。 –

+0

我打开了一个PDF文件,并且到达了包含第一页的对象,并且我从endobj被删除到文件末尾,就好像它是一个部分文件下载。 pyPdf(以及我迄今为止所尝试的所有CL实用程序)都抱怨缺少%% EOF。无论如何,即使我要添加EOF,仍然会抱怨丢失的交叉引用表。这比我想象的要难得多。 – andreliebschner