2013-01-23 61 views
0

如何检测PDF文件中的图像(Python)。Python图像检测PDF

我必须检测该图像是否存在于PDF文件中。 有没有办法做到这一点。

我已经尝试过PyPdf,但没有成功。请帮我

感谢 赞赏

+0

只是澄清,提问者的问题不是太糟糕:他想要一些示例代码来使用python来提取PDF文件的图像内容(如果存在)。所提供的答案确实可以回答这个问题。 –

回答

1

有PDFMiner任何回应。它也有一个Python-API。这可以帮助您搜索图像。通过使用:

from pdfminer.layout import LAParams 
from pdfminer.converter import PDFPageAggregator 

# Set parameters for analysis. 
laparams = LAParams() 
# Create a PDF page aggregator object. 
device = PDFPageAggregator(rsrcmgr, laparams=laparams) 
interpreter = PDFPageInterpreter(rsrcmgr, device) 
for page in doc.get_pages(): 
    interpreter.process_page(page) 
    # receive the LTPage object for the page. 
    layout = device.get_result() 

layoutLTPage -object,这基本上是一个页面上的所有布局对象的树。你可以沿着这棵树的所有分支走,并检查某个地方是否有一个LTImage对象 - 然后你就知道有一个图像。

PDFMiner只适用于Python 2.x.

+0

非常感谢你@Thorsten ..我会尝试这个 – user1839132

+0

欢迎你,让我知道你是否成功。 –

+0

pdfminer有一个很好的“汇总”能够循环这些不同的LTImage/LTPage对象:http://denis.papathanasiou.org/2010/08/04/extracting-text-images-from-pdf-files/ –