5
我已经尝试过使用pyPdf和pdfMiner从pdf文件中提取文本。我有一些不友好的pdf,只有pdfMiner能够成功提取。我正在使用代码here来提取整个文件的文本。但是,我真的很想在每页基础上提取文本,如pyPdf中的getPage(i).extractText()
功能。有谁知道如何使用pdfMiner每页提取文本?用Python pdfMiner每页提取文本?
我已经尝试过使用pyPdf和pdfMiner从pdf文件中提取文本。我有一些不友好的pdf,只有pdfMiner能够成功提取。我正在使用代码here来提取整个文件的文本。但是,我真的很想在每页基础上提取文本,如pyPdf中的getPage(i).extractText()
功能。有谁知道如何使用pdfMiner每页提取文本?用Python pdfMiner每页提取文本?
for pageNumber, page in enumerate(PDFDocument.get_pages()):
if pageNumber == 42:
#do something with the page
有一篇不错的文章here。
有人可以详细说明吗?由于没有任何文档,我在使用pdfminer时遇到了很大的麻烦。 – Jazcash
对于哪个版本的pdfminer'代码工作? –
这似乎与目前的* pdfminer *(编写20140328的时间)有关。 –