用Python pdfMiner每页提取文本？

我已经尝试过使用pyPdf和pdfMiner从pdf文件中提取文本。我有一些不友好的pdf，只有pdfMiner能够成功提取。我正在使用代码here来提取整个文件的文本。但是，我真的很想在每页基础上提取文本，如pyPdf中的getPage(i).extractText()功能。有谁知道如何使用pdfMiner每页提取文本？用Python pdfMiner每页提取文本？

来源

2012-09-26 ezbentley

for pageNumber, page in enumerate(PDFDocument.get_pages()): 
    if pageNumber == 42: 
     #do something with the page

有一篇不错的文章here。

来源

2012-09-26 18:19:34 John

有人可以详细说明吗？由于没有任何文档，我在使用pdfminer时遇到了很大的麻烦。 – Jazcash

对于哪个版本的pdfminer'代码工作？ –

这似乎与目前的* pdfminer *（编写20140328的时间）有关。 –

用Python pdfMiner每页提取文本？

回答

相关问题