2017-04-10 46 views
1

Python新的Python。 我正在使用此代码来提取文本。是否可以提取所有页面并在文件中输出?从PDF中提取文本 - 所有页面和输出 - 使用Python的文件

import PyPDF2 
pdf_file = open('sample.pdf','rb') 
read_pdf = PyPDF2.PdfFileReader(pdf_file) 
number_of_pages = read_pdf.getNumPages() 
page = read_pdf.getPage(10) 
page_content = page.extractText() 
print (page_content) 
+0

我觉得你可以参考此链接http://stackoverflow.com/questions/17003185/extracting-entire-pdf-data-with-python-pdfminer/39736947#39736947除了pypdf2 – mikewolfli

回答

1

使用循环提取每个页面的文本并将每个页面的文本写入单个文件。

import PyPDF2 
with open('sample.pdf','rb') as pdf_file, open('sample.txt', 'w') as text_file: 
    read_pdf = PyPDF2.PdfFileReader(pdf_file) 
    number_of_pages = read_pdf.getNumPages() 
    for page_number in range(number_of_pages): # use xrange in Py2 
     page = read_pdf.getPage(page_number) 
     page_content = page.extractText() 
     text_file.write(page_content) 
+0

完美!有效!但是......有可能阅读这种pdf吗? https://www.cotemar.com.br/biblioteca/administracao/teoria-geral-da-administracao.pdf –

+0

看来,PDF是一本扫描书籍。即使它已经被OCR了,我也不知道PyPDF是否可以处理它。 – kindall

相关问题