从PDF中提取文本 - 所有页面和输出 - 使用Python的文件

Python新的Python。我正在使用此代码来提取文本。是否可以提取所有页面并在文件中输出？从PDF中提取文本 - 所有页面和输出 - 使用Python的文件

import PyPDF2 
pdf_file = open('sample.pdf','rb') 
read_pdf = PyPDF2.PdfFileReader(pdf_file) 
number_of_pages = read_pdf.getNumPages() 
page = read_pdf.getPage(10) 
page_content = page.extractText() 
print (page_content)

来源

2017-04-10 Raquel Dourado

我觉得你可以参考此链接http://stackoverflow.com/questions/17003185/extracting-entire-pdf-data-with-python-pdfminer/39736947#39736947除了pypdf2 – mikewolfli

使用循环提取每个页面的文本并将每个页面的文本写入单个文件。

import PyPDF2 
with open('sample.pdf','rb') as pdf_file, open('sample.txt', 'w') as text_file: 
    read_pdf = PyPDF2.PdfFileReader(pdf_file) 
    number_of_pages = read_pdf.getNumPages() 
    for page_number in range(number_of_pages): # use xrange in Py2 
     page = read_pdf.getPage(page_number) 
     page_content = page.extractText() 
     text_file.write(page_content)

来源

2017-04-10 03:33:41 kindall

完美！有效！但是......有可能阅读这种pdf吗？ https://www.cotemar.com.br/biblioteca/administracao/teoria-geral-da-administracao.pdf –

看来，PDF是一本扫描书籍。即使它已经被OCR了，我也不知道PyPDF是否可以处理它。 – kindall

从PDF中提取文本 - 所有页面和输出 - 使用Python的文件

回答

相关问题