2014-09-11 136 views
-1

我想从网站下载数百个pdf文档。我已经尝试过诸如SiteSucker和类似的工具,但它不起作用,因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何以更好的方式来描述这一点,因为我对网站编程或拼写知之甚少。关于这可能是什么以及如何绕过它的任何建议?如何从网站下载链接的pdf文件?

更具体地说,我试图下载联合国决议的PDF文件,存储在页这样的一个:在联合国网站上http://www.un.org/depts/dhl/resguide/r53_en.shtml

看起来有一个内置的“搜索功能”,这使得假像SiteSucker一样刮,不按预期工作。

是否还有其他工具可以使用?

回答

1

单击您提到的页面上的链接重定向到由两个框架(html)组成的页面。第一个是“标题”,第二个加载页面以生成PDF文件并嵌入其中。 PDF文件的URL很难猜测。我不知道免费的工具可以取消这种类型的页面。

下面是在该端部到PDF文件中的第二帧中的URL的一个示例:

http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N99/774/43/PDF/N9977443.pdf?OpenElement

+0

感谢。你知道一个可以完成这项工作的非免费工具吗? – Magnus 2014-09-30 10:40:10

+0

类似的问题另一个网站包含相同的分辨率,但没有双层。例如,一年,http://www.worldlii.org/int/other/UNGARsn/1952/有一个robots.txt块。有什么办法可以解决这种问题吗? – Magnus 2014-09-30 12:03:29