只读HTTP提供的PDF文件的第一页

场景：我们感兴趣的是从远程HTTP服务器获取PDF的第一页，应用程序位于带宽受限的环境中。只读HTTP提供的PDF文件的第一页

有什么选择来完成任务？

来源

2011-11-04 andreliebschner

pyPdf模块可能会有所帮助。

来源

2011-11-04 20:28:37

它没有。 pyPdf需要一个.seek（）能够的对象，除此之外，它看起来像pyPdf将整个对象流加载到内存中。所以我需要首先下载整个文件，除非我错过了你的观点。 – andreliebschner

我相信它可以读取部分文件。只下拉部分资源是http的工作（做一个头部请求，验证远程服务器是否接受范围，然后进行范围特定的get-request，然后对结果运行pdf解析器，如果整个页面不是'吨检索，然后请求下一个范围）。 –

我打开了一个PDF文件，并且到达了包含第一页的对象，并且我从endobj被删除到文件末尾，就好像它是一个部分文件下载。 pyPdf（以及我迄今为止所尝试的所有CL实用程序）都抱怨缺少%% EOF。无论如何，即使我要添加EOF，仍然会抱怨丢失的交叉引用表。这比我想象的要难得多。 – andreliebschner

只读HTTP提供的PDF文件的第一页

回答

相关问题