2013-02-20 110 views
1

我正在寻找一个编程解决方案来查找包含至少一个图像的所有页面(例如页码)。我不需要自己的图像,我只需要页码。 shell脚本解决方案或python解决方案是首选,但有助于完成此任务的所有内容都可以。获取包含图像的PDF页面

背景:我正在研究PDF,我需要知道在哪个页面上运行OCR是有意义的。

回答

1

一个解决方案是使用pdfimages,该工具来自poppler-utils包。它可以输出存储在PDF上的图像的一些信息:

$ pdfimages -list file.pdf 
page num type width height color comp bpc enc interp object ID 
--------------------------------------------------------------------- 
    1  0 image  200 197 rgb  3 8 jpeg no   7 0 

的页码是接一个(从1算起),identify(从ImageMagik包)可以告诉你所有的页码:

$ identify -format '%p ' file 
0 1 2 3 

从这两个命令可以看出,页面2,3,4不包含图像,而页面1不包含图像。