如何从PDF文件中获取内容并将其存储在txt文件中

import pyPdf 
f= open('jayabal_appt.pdf','rb') 
pdfl = pyPdf.PdfFileReader(f) 
content="" 
for i in range(0,1): 
    content += pdfl.getPage(i).extractText() + "\n" 
outpu = open('b.txt','wb') 
outpu.write(content) 
f.close() 
outpu.close()

这不是从pdf文件获取内容并将其存储在txt文件中......此代码中的错误是什么？ ???如何从PDF文件中获取内容并将其存储在txt文件中

来源

2013-02-27 Venkatraman K

从笔者一个简单的例子表明这样做，（你似乎并不在做“文件”）：

from pyPdf import PdfFileWriter, PdfFileReader 

output = PdfFileWriter() 
input1 = PdfFileReader(file("jayabal_appt.pdf", "rb"))

然后你就可以做到以下几点：

output.addPage(input1.getPage(0))

而且肯定，为它使用for循环，但作者不建议使用extractText。

只是检查出的网站，例子是相当直截了当：http://pybrary.net/pyPdf/

然而

pyPdf不再维持，所以我不建议使用它。作者建议检出pyPdf2。

一个简单的谷歌搜索也建议你应该尝试pdftotext或pdfminer。那里有很多例子。

祝你好运。

来源

2013-02-27 13:56:57 Jonast92

如何从PDF文件中获取内容并将其存储在txt文件中

回答

相关问题