pypdf

4热度

1回答

我想在pdf的每个页面上显示一个文本。这个文本是一个看起来像<p style="color: #ff0000">blabla</p>的html代码，它在最终文档中显示为红色，我将它转换为pdf（html2pdf lib），然后将它合并（PyPDF2 lib）到我的pdf的每个页面。 ...但合并非常缓慢！我的问题是：是否有合并PDF比PyPDF2的page.mergePage方法更快的方法？

3热度

4回答

合并PDF的python pypdf和删除合并的文件

我想写一个程序在Python中，需要一个PDF文件，并附加到它第一个任何pdf，其中包括一个水果的名称（芒果，橙或苹果），然后将pdf的动物名称附加到原始文件（斑马，猴子，狗），最后附加任何剩余的PDF。这是我的代码： import os from PyPDF2 import PdfFileReader, PdfFileMerger originalFile="C:/originalFil

2热度

1回答

pyPDF2类型错误时，提取文本

我已成功安装pyPDF，但extractText方法并不能很好的工作，所以我决定尝试pyPDF2，问题是，提取文本时，有一个例外： Traceback (most recent call last): File "C:\Users\Asus\Desktop\pfdtest.py", line 44, in <module> test2() File "C:\Users

1热度

1回答

如何让pypdf逐行阅读页面内容？

我在每个页面包含一个地址的PDF文件。该地址格式为： Location Name Street Address City, State Zip 例如： The Gift Store 620 Broadway Street Van Buren, AR 72956 每一个地址仅在这种格式，并各自为PDF的不同页面上。我需要提取的地址信息，并存储在Excel/CSV文件的结果。

17热度

1回答

如何从Python中的PDF文件中提取文本？

如何从Python中的PDF文件中提取文本？我尝试以下： import sys import pyPdf def convertPdf2String(path): content = "" pdf = pyPdf.PdfFileReader(file(path, "rb")) for i in range(0, pdf.getNumPages()):

2热度

2回答

在pyPDF中合并较大画布上的PDF

我在pyPDF中要做的是创建一个脚本，它将生成17x11 PDF“canvas”，将第1个PDF添加到左侧，将第2个PDF添加到右侧。我最初的问题是：什么是生成输出PDF不分享原始PDF的维度的方法？ IE：我如何生成17x11 PDF？

1热度

1回答

pyPdf：非法UTF-16代理

我有打破pyPdf PDF文件：http://tovotu.de/tests/test.pdf 这是示例脚本： from pyPdf import PdfFileWriter, PdfFileReader outputPdf = PdfFileWriter() inpdf = open("test.pdf","rb") inputPdf = PdfFileReader(inpdf) [

1热度

1回答

pypdf不从pdf中提取表格

我使用pypdf从pdf文件中提取文本。问题是没有提取PDF文件中的表格。我也尝试使用pdfminer，但我有同样的问题。

5热度

2回答

使用PdfMiner和PyPDF2合并列提取文本

我想解析PDF文件使用pdfMiner，但提取的文本得到合并。我正在使用以下链接中的pdf文件。 PDF File 我好与任何类型的输出（文件/串）。下面是代码，它将提取的文本作为字符串返回给我，但由于某些原因，列被合并。 from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from

0热度

1回答

pypdf的pdfs列表

我已经得到pypdf工作就好了一个单一的PDF文件，但我似乎无法让它工作的文件，或for循环多个pdf文件，没有失败，因为的字符串不可调用。任何想法我都可以用作解决方法？ def getPDFContent(path): content = "" # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "r