pypdf

0热度

2回答

我有一个Python脚本，它使用PyPDF2来颠倒PDF页面的顺序。 from PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() rpage = [] name = input("What's the file called?") filename = name.split('.', 1) inp

0热度

1回答

只能将列表（不是“unicode”）连接到列表

我已将复制粘贴到Word.docx文件中的一些Lorem Ipsum，将其保存为PDF并尝试运行以下脚本以进行测试以从PDF中提取文本。 from pyPdf import PdfFileReader if (fileExtension == ".PDF"): pdfDoc = PdfFileReader(file(FOLDER+j, "rb")) fileText = ""

1热度

1回答

Python 2.7：使用Windows 7的pypdfocr时的难度

我试图在Windows 7中使用pypdfocr与Python 2.7。这是错误消息我收到的时候我尝试pypdfocr在cmd： C:\Users\chamar.stu>pypdfocr F:\test2.pdf Starting conversion of F:\test2.pdf 'pdfimages' is not recognized as an internal or external

8热度

1回答

具有相同名称的PyPdf2嵌套书签不起作用

当您试图嵌套多个具有相同名称的书签时，PyPdf2并未将其考虑在内。下面自足的Python代码来测试我的意思（你需要有3个命名为A，B和C的工作文件夹中的PDF文件来测试它） from PyPDF2 import PdfFileReader, PdfFileMerger def main(): merger = PdfFileMerger() pagenum = 0 firstOne

1热度

1回答

使用Python突出显示PDF中的文本

我正在为我的PDF数据语料库开发自定义搜索引擎。我有一个转换层，它能够将PDF内容转储到文本（使用Apache Tika和GROBID）。我已完成搜索图层和返回搜索结果列表的视图。现在，我想在原始PDF上添加突出显示功能，以查找出现搜索字词的行。是的，我想修改PDF文件，如果有必要。有什么方法可以在PDF文件中突出显示文本？ PDFMiner或PyPDF2或其他Python库是否能够做到这一

2热度

1回答

PyPDF2 - 合并来自两个不同PDF文件的页面不起作用

我试图将两个PDF文件中的页面合并成一个PDF页面。所以，我想下面的代码使用PyPDF2： from PyPDF2 import PdfFileReader,PdfFileWriter import sys f = sys.argv[1] k = sys.argv[2] print f,k file1 = PdfFileReader(file(f, "rb")) file2 = Pdf

1热度

4回答

使用python逐行读取pdf文件

我用下面的代码来读取pdf文件，但它没有读取它。可能是什么原因？ >>> import os >>> from PyPDF2 import PdfFileReader, PdfFileWriter >>> path = "/Users/Rahul/Desktop/Dfiles/" >>> dirs = os.listdir(path) >>> directory = "/Users

2热度

1回答

在python中读取所有类型的文件

我想从python中的不同类型的文件中提取信息（.pdf .doc .docx）并将其转换为.txt，但在处理不同的文件时，我在不需要时获取空格和换行符和许多其他问题。我已经尝试过PyPDF2和PDF manager.Please建议我可以从文件中提取信息的东西。编辑目前寻找的东西，它可以帮助我从.pdf文件中提取确切的文本。我已经尝试过PyPDF，PDFMiner和PDF Manager，并

0热度

1回答

Unicode错误PyPdf

我尝试使用requests库下载多个pdf，并使用pypdf将它们合并在一起。一般来说，这工作正常，但对于一些PDF，我只是得到一个错误。 MWE.py import requests from pyPdf import PdfFileWriter, PdfFileReader from StringIO import StringIO input = PdfFileReader(Str

0热度

1回答

用Python和pyPDF提取PDF的前两行

我使用python 2.7和pyPDF从PDF文件中获取标题元信息。不幸的是，并非所有的PDF都有元信息。我现在想要做的是从PDF中获取前两行文本。使用我现在拥有的如何修改代码来捕获pyPDF的前两行？ from pyPdf import PdfFileWriter, PdfFileReader import os for fileName in os.listdir('.'):