2013-11-09 144 views
2

我有以下网站http://www.asd.com.tr。我想将所有PDF文件下载到一个目录中。我尝试了几个命令,但没有太多的运气。使用wget下载所有pdf文件

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/ 

使用此代码只下载了四个PDF文件。检查这个环节,有超过几千PDF文件可供选择:

例如,数百个文件是在以下文件夹:

但我不知道如何正确访问它们来查看和下载它们,有这个子目录中的一些文件夹,http://www.asd.com.tr/Folders/以及这些文件夹中的数千个PDF文件。

我试图使用-m命令镜像站点,但它也失败了。

还有更多建议吗?

+0

为什么?您可以为数以千计的土耳其政府PDF文件提供免费的在线免费使用吗? – 2013-11-09 21:06:01

+0

我只是想做wget的例子,我是土耳其人,这个网站很受欢迎..就是这样。没有进攻兄弟.. –

回答

8

首先,验证网站的TOS是否允许抓取它。于是,一种解决方案是:

mech-dump --links 'http://domain.com' | 
    grep pdf$ | 
    sed 's/\s+/%20/g' | 
    xargs -I% wget http://domain.com/% 

mech-dump命令带有Perl的模块WWW::Mechanizelibwww-mechanize-perl包在Debian & Debian的发行版喜欢)

+0

+1非常好的解决方案! – slm