pdf-scraping

    7热度

    1回答

    我在寻找一个API或程序(最好Python的和开源的),这让我下载一个谷歌图片搜索的第一ñ图片,让我们说自行车。如果它能从普通搜索下载第一个n .pdf文件,它也会有所帮助。由于并不是所有的图片和.pdf文件都在谷歌上找到,并且因为还有很多其他的搜索引擎,所以可以从Yahoo或Bing刮取结果的程序会非常方便。有没有这样的程序,或者是否有谷歌的API让我每天进行超过100次搜索? 编辑:路过的人可

    0热度

    1回答

    我试图解析这个文件,但没有从网站下载它。我已经在硬盘上运行这个文件,我可以毫无问题地解析它,但运行它跳转的脚本。 if not document.is_extractable: raise PDFTextExtractionNotAllowed 我认为我整合了网址错误。 import sys import getopt import urllib2 import datetime i

    -2热度

    3回答

    我基本上想要的是在行标题下的PDF数据或简化我所说的,我想从PDF文件创建一个数据库。每个PDF由25 -40页取决于选民的数量。 A page of pdf file I am talking about 我想从箱子中提取数据(或者不管你说什么他们)到Access/EXCEL/SQL使各盒 名称下名称列 关系出现关系列等出现在其他数据下 但是我不知道应该学习哪种编程语言才能做到这一点。我尝试过搜

    0热度

    1回答

    有没有办法让我通过突出显示所需的字段来扫描PDF图像并从图像中提取数据?我们每天扫描数以千计的房地产行为的PDF图像,并希望能够自动完成数据录入过程。我们面临的问题是没有两个行为是相同的。

    0热度

    1回答

    Web浏览器和PDF阅读器使用什么算法在巨大的基于文本的文档中搜索给定单词?为了澄清,当我阅读电子书并按下Ctrl-F并输入搜索词时,它会相当快地找到匹配的词。正在使用哪种算法,以及正在使用哪种数据结构来存储书籍/网站的整个文本?

    1热度

    1回答

    我正在使用nuGet(5.5.8)中的最新iTextSharp lib来解析pdf文件中的一些文本。我面临的问题是,GetTextFromPage方法不仅从它应该返回的页面返回文本,还返回前一页中的文本。这是我的代码: var url = "https://www.oslo.kommune.no/getfile.php/Innhold/Politikk%20og%20administrasjon/

    -1热度

    1回答

    我想从网站下载数百个pdf文档。我已经尝试过诸如SiteSucker和类似的工具,但它不起作用,因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何以更好的方式来描述这一点,因为我对网站编程或拼写知之甚少。关于这可能是什么以及如何绕过它的任何建议? 更具体地说,我试图下载联合国决议的PDF文件,存储在页这样的一个:在联合国网站上http://www.un.org/depts/dhl/r

    4热度

    1回答

    我写了Python代码,从PDF文件中删除所有的数据。这里的问题是,一旦被刮掉,这些词会失去语法。如何解决这些问题? 我附上了代码。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.la

    0热度

    1回答

    我有代码将jpgs解压缩成适用于JPEG文件的位图,但是当我将代码提供给JPEG时,我直接从PDF中剥离了XObject我收到了错误。 Adob​​e阅读器显示的图像很好,所以我不认为它已损坏。我已阅读JPEG和PDFs文档,并且未发现任何明显问题。 我的问题是,这是否有什么不同的嵌入在一个PDF流和一个正常的JPEG内的“JPEG”?如果是的话,它是什么? 注:我可以手动打开PDF文件,复制图像

    0热度

    1回答

    我已经从pdf中提取了一些数据。它具有几乎像XML的数据,看起来像这样 "(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) Data-field-3 (5) Da