我想从网站下载数百个pdf文档。我已经尝试过诸如SiteSucker和类似的工具,但它不起作用,因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何以更好的方式来描述这一点,因为我对网站编程或拼写知之甚少。关于这可能是什么以及如何绕过它的任何建议?如何从网站下载链接的pdf文件?
更具体地说,我试图下载联合国决议的PDF文件,存储在页这样的一个:在联合国网站上http://www.un.org/depts/dhl/resguide/r53_en.shtml
看起来有一个内置的“搜索功能”,这使得假像SiteSucker一样刮,不按预期工作。
是否还有其他工具可以使用?
感谢。你知道一个可以完成这项工作的非免费工具吗? – Magnus 2014-09-30 10:40:10
类似的问题另一个网站包含相同的分辨率,但没有双层。例如,一年,http://www.worldlii.org/int/other/UNGARsn/1952/有一个robots.txt块。有什么办法可以解决这种问题吗? – Magnus 2014-09-30 12:03:29