1
我正在寻找一个编程解决方案来查找包含至少一个图像的所有页面(例如页码)。我不需要自己的图像,我只需要页码。 shell脚本解决方案或python解决方案是首选,但有助于完成此任务的所有内容都可以。获取包含图像的PDF页面
背景:我正在研究PDF,我需要知道在哪个页面上运行OCR是有意义的。
我正在寻找一个编程解决方案来查找包含至少一个图像的所有页面(例如页码)。我不需要自己的图像,我只需要页码。 shell脚本解决方案或python解决方案是首选,但有助于完成此任务的所有内容都可以。获取包含图像的PDF页面
背景:我正在研究PDF,我需要知道在哪个页面上运行OCR是有意义的。
一个解决方案是使用pdfimages
,该工具来自poppler-utils
包。它可以输出存储在PDF上的图像的一些信息:
$ pdfimages -list file.pdf
page num type width height color comp bpc enc interp object ID
---------------------------------------------------------------------
1 0 image 200 197 rgb 3 8 jpeg no 7 0
的页码是接一个(从1算起),identify
(从ImageMagik
包)可以告诉你所有的页码:
$ identify -format '%p ' file
0 1 2 3
从这两个命令可以看出,页面2,3,4不包含图像,而页面1不包含图像。