2013-02-27 29 views
0
import pyPdf 
f= open('jayabal_appt.pdf','rb') 
pdfl = pyPdf.PdfFileReader(f) 
content="" 
for i in range(0,1): 
    content += pdfl.getPage(i).extractText() + "\n" 
outpu = open('b.txt','wb') 
outpu.write(content) 
f.close() 
outpu.close() 

这不是从pdf文件获取内容并将其存储在txt文件中......此代码中的错误是什么? ???如何从PDF文件中获取内容并将其存储在txt文件中

回答

1

从笔者一个简单的例子表明这样做,(你似乎并不在做“文件”):

from pyPdf import PdfFileWriter, PdfFileReader 

output = PdfFileWriter() 
input1 = PdfFileReader(file("jayabal_appt.pdf", "rb")) 

然后你就可以做到以下几点:

output.addPage(input1.getPage(0)) 

而且肯定,为它使用for循环,但作者不建议使用extractText。

只是检查出的网站,例子是相当直截了当:http://pybrary.net/pyPdf/

然而

pyPdf不再维持,所以我不建议使用它。作者建议检出pyPdf2。

一个简单的谷歌搜索也建议你应该尝试pdftotext或pdfminer。那里有很多例子。

祝你好运。

相关问题