回答
有PDFMiner任何回应。它也有一个Python-API。这可以帮助您搜索图像。通过使用:
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
# Set parameters for analysis.
laparams = LAParams()
# Create a PDF page aggregator object.
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in doc.get_pages():
interpreter.process_page(page)
# receive the LTPage object for the page.
layout = device.get_result()
layout
是LTPage
-object,这基本上是一个页面上的所有布局对象的树。你可以沿着这棵树的所有分支走,并检查某个地方是否有一个LTImage
对象 - 然后你就知道有一个图像。
PDFMiner只适用于Python 2.x.
非常感谢你@Thorsten ..我会尝试这个 – user1839132
欢迎你,让我知道你是否成功。 –
pdfminer有一个很好的“汇总”能够循环这些不同的LTImage/LTPage对象:http://denis.papathanasiou.org/2010/08/04/extracting-text-images-from-pdf-files/ –
- 1. 自动检测来自PDF的图像
- 2. 在Python中检测像素化图像
- 3. 检测图像
- 4. python检测文档中的图像
- 5. 使用Python的图像颜色检测
- 6. Python中的图像点检测
- 7. Python:解析PDF和图像
- 8. 如何从PDF中检测颜色Python
- 9. 块图像检测
- 10. 使用PIL(Python图像库)来检测屏幕上的图像
- 11. Python大图像边缘检测使用Scikit图像和GDAL
- 12. 如何检测pdf是文本还是图像
- 13. 图像内部的图像检测
- 14. PDF流血检测
- 15. 使用python检测图像的大小使用python
- 16. 图像特征检测
- 17. 检测图像捕获
- 18. 检测RichTextBox中的图像
- 19. OpenCV检测图像边界
- 20. JFrame图像碰撞检测
- 21. 检测图像分辨率?
- 22. 检测并从图像
- 23. 多图像碰撞检测
- 24. 通用硒检测图像
- 25. 图像的文本检测
- 26. 实时图像检测
- 27. 检测点击图像类
- 28. 检测图像的结尾
- 29. php图像类型检测
- 30. 检测图像加载
只是澄清,提问者的问题不是太糟糕:他想要一些示例代码来使用python来提取PDF文件的图像内容(如果存在)。所提供的答案确实可以回答这个问题。 –