pdf-scraping

7热度

1回答

我在寻找一个API或程序（最好Python的和开源的），这让我下载一个谷歌图片搜索的第一ñ图片，让我们说自行车。如果它能从普通搜索下载第一个n .pdf文件，它也会有所帮助。由于并不是所有的图片和.pdf文件都在谷歌上找到，并且因为还有很多其他的搜索引擎，所以可以从Yahoo或Bing刮取结果的程序会非常方便。有没有这样的程序，或者是否有谷歌的API让我每天进行超过100次搜索？编辑：路过的人可

0热度

1回答

使用pdfminer通过URL解析PDF时使用pdfminer

我试图解析这个文件，但没有从网站下载它。我已经在硬盘上运行这个文件，我可以毫无问题地解析它，但运行它跳转的脚本。 if not document.is_extractable: raise PDFTextExtractionNotAllowed 我认为我整合了网址错误。 import sys import getopt import urllib2 import datetime i

-2热度

3回答

最好的语言来提取pdf文本，并将其列在行标题下

我基本上想要的是在行标题下的PDF数据或简化我所说的，我想从PDF文件创建一个数据库。每个PDF由25 -40页取决于选民的数量。 A page of pdf file I am talking about 我想从箱子中提取数据（或者不管你说什么他们）到Access/EXCEL/SQL使各盒名称下名称列关系出现关系列等出现在其他数据下但是我不知道应该学习哪种编程语言才能做到这一点。我尝试过搜

0热度

1回答

PDF数据提取

有没有办法让我通过突出显示所需的字段来扫描PDF图像并从图像中提取数据？我们每天扫描数以千计的房地产行为的PDF图像，并希望能够自动完成数据录入过程。我们面临的问题是没有两个行为是相同的。

0热度

1回答

在PDF /网站上查找字词

Web浏览器和PDF阅读器使用什么算法在巨大的基于文本的文档中搜索给定单词？为了澄清，当我阅读电子书并按下Ctrl-F并输入搜索词时，它会相当快地找到匹配的词。正在使用哪种算法，以及正在使用哪种数据结构来存储书籍/网站的整个文本？

1热度

1回答

为什么iTextSharp的GetTextFromPage返回的字符串越来越长？

我正在使用nuGet（5.5.8）中的最新iTextSharp lib来解析pdf文件中的一些文本。我面临的问题是，GetTextFromPage方法不仅从它应该返回的页面返回文本，还返回前一页中的文本。这是我的代码： var url = "https://www.oslo.kommune.no/getfile.php/Innhold/Politikk%20og%20administrasjon/

-1热度

1回答

如何从网站下载链接的pdf文件？

我想从网站下载数百个pdf文档。我已经尝试过诸如SiteSucker和类似的工具，但它不起作用，因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何以更好的方式来描述这一点，因为我对网站编程或拼写知之甚少。关于这可能是什么以及如何绕过它的任何建议？更具体地说，我试图下载联合国决议的PDF文件，存储在页这样的一个：在联合国网站上http://www.un.org/depts/dhl/r

4热度

1回答

我想刮一个印地语（印度语言）pdf文件与Python的

我写了Python代码，从PDF文件中删除所有的数据。这里的问题是，一旦被刮掉，这些词会失去语法。如何解决这些问题？我附上了代码。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.la

0热度

1回答

解码从PDF文件内部剥离的JPEG图像

我有代码将jpgs解压缩成适用于JPEG文件的位图，但是当我将代码提供给JPEG时，我直接从PDF中剥离了XObject我收到了错误。 Adobe阅读器显示的图像很好，所以我不认为它已损坏。我已阅读JPEG和PDFs文档，并且未发现任何明显问题。我的问题是，这是否有什么不同的嵌入在一个PDF流和一个正常的JPEG内的“JPEG”？如果是的话，它是什么？注：我可以手动打开PDF文件，复制图像

0热度

1回答

准xml提取2个开始标记的文本

我已经从pdf中提取了一些数据。它具有几乎像XML的数据，看起来像这样 "(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) Data-field-3 (5) Da