pypdf

    0热度

    2回答

    我有一个Python脚本,它使用PyPDF2来颠倒PDF页面的顺序。 from PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() rpage = [] name = input("What's the file called?") filename = name.split('.', 1) inp

    0热度

    1回答

    我已将复制粘贴到Word.docx文件中的一些Lorem Ipsum,将其保存为PDF并尝试运行以下脚本以进行测试以从PDF中提取文本。 from pyPdf import PdfFileReader if (fileExtension == ".PDF"): pdfDoc = PdfFileReader(file(FOLDER+j, "rb")) fileText = ""

    1热度

    1回答

    我试图在Windows 7中使用pypdfocr与Python 2.7。 这是错误消息我收到的时候我尝试pypdfocr在cmd: C:\Users\chamar.stu>pypdfocr F:\test2.pdf Starting conversion of F:\test2.pdf 'pdfimages' is not recognized as an internal or external

    8热度

    1回答

    当您试图嵌套多个具有相同名称的书签时,PyPdf2并未将其考虑在内。 下面自足的Python代码来测试我的意思(你需要有3个命名为A,B和C的工作文件夹中的PDF文件来测试它) from PyPDF2 import PdfFileReader, PdfFileMerger def main(): merger = PdfFileMerger() pagenum = 0 firstOne

    1热度

    1回答

    我正在为我的PDF数据语料库开发自定义搜索引擎。 我有一个转换层,它能够将PDF内容转储到文本(使用Apache Tika和GROBID)。我已完成搜索图层和返回搜索结果列表的视图。 现在,我想在原始PDF上添加突出显示功能,以查找出现搜索字词的行。是的,我想修改PDF文件,如果有必要。 有什么方法可以在PDF文件中突出显示文本? PDFMiner或PyPDF2或其他Python库是否能够做到这一

    2热度

    1回答

    我试图将两个PDF文件中的页面合并成一个PDF页面。所以,我想下面的代码使用PyPDF2: from PyPDF2 import PdfFileReader,PdfFileWriter import sys f = sys.argv[1] k = sys.argv[2] print f,k file1 = PdfFileReader(file(f, "rb")) file2 = Pdf

    1热度

    4回答

    我用下面的代码来读取pdf文件,但它没有读取它。可能是什么原因? >>> import os >>> from PyPDF2 import PdfFileReader, PdfFileWriter >>> path = "/Users/Rahul/Desktop/Dfiles/" >>> dirs = os.listdir(path) >>> directory = "/Users

    2热度

    1回答

    我想从python中的不同类型的文件中提取信息(.pdf .doc .docx)并将其转换为.txt,但在处理不同的文件时,我在不需要时获取空格和换行符和许多其他问题。我已经尝试过PyPDF2和PDF manager.Please建议我可以从文件中提取信息的东西。 编辑 目前寻找的东西,它可以帮助我从.pdf文件中提取确切的文本。我已经尝试过PyPDF,PDFMiner和PDF Manager,并

    0热度

    1回答

    我尝试使用requests库下载多个pdf,并使用pypdf将它们合并在一起。一般来说,这工作正常,但对于一些PDF,我只是得到一个错误。 MWE.py import requests from pyPdf import PdfFileWriter, PdfFileReader from StringIO import StringIO input = PdfFileReader(Str

    0热度

    1回答

    我使用python 2.7和pyPDF从PDF文件中获取标题元信息。不幸的是,并非所有的PDF都有元信息。我现在想要做的是从PDF中获取前两行文本。使用我现在拥有的如何修改代码来捕获pyPDF的前两行? from pyPdf import PdfFileWriter, PdfFileReader import os for fileName in os.listdir('.'):