我正在尝试提取PDF中的图像。我正在使用的文件是2+页。第1页是文本,第2-n页是图像(每页一个,或者它可能是跨多页的单个图像;我无法控制原点)。Python pdfminer提取图像每页产生多个图像(应该是单个图像)
我能够从第1页解析文本,但是当我尝试获取图像时,每张图像页面会获得3张图像。我无法确定使其节省时间的图像类型。此外试图每个网页作为一个单一的IMG提供无结果保存3张照片(如无法通过取景器上OSX打开)
样品:
fp = open('the_file.pdf', 'rb')
parser = PDFParser(fp)
document = PDFDocument(parser)
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
pdf_item = device.get_result()
for thing in pdf_item:
if isinstance(thing, LTImage):
save_image(thing)
if isinstance(thing, LTFigure):
find_images_in_thing(thing)
def find_images_in_thing(outer_layout):
for thing in outer_layout:
if isinstance(thing, LTImage):
save_image(thing)
save_image
无论是在写入每个图像文件中pageNum_imgNum
格式'wb'
模式或'a'
模式下的每页单个图像。我已经尝试了很多文件扩展名,但没有运气。
资源,我看着:
http://denis.papathanasiou.org/posts/2010.08.04.post.html(outdatted pdfminer版) http://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html