2017-02-12 34 views
0

我必须下载所有站点内容,然后解析下载的文件夹以查找“* .pdf”文件。我下载的网站使用wget -r --no-parent http://www.example.com/但问题是,有时链接看起来这Wget文件格式

http://www.foodmanufuture.eu/dpubs?f=K20 

和dowloaded PDF下载名称为“dpubs?F = K20”和文件格式没有指定,它看起来并不像这样“dpubs?f = K20.pdf”,有没有办法检查我在这个文件夹中有多少pdf文件?

回答

0

你可以使用命令

file filename 

像这样:

file pdfurl-guide 
pdfurl-guide: PDF document, version 1.5 

你可以使用:

file * 

确切地知道哪些文件的文件夹中的PDF文件

1

你有没有试过--content-disposition的标志?从手册页:

如果将此设置为on,则启用对“Content-Disposition”标头的实验性(非全功能)支持。这可能会导致额外往返服务器的“HEAD”请求,并且已知会遇到一些错误,这就是为什么默认情况下当前未启用它的原因。 此选项对于某些使用“Content-Disposition”标头的文件下载CGI程序来描述下载文件的名称应该是

因此,它试图询问服务器的文件名。我尝试了你给的URL,它似乎工作。

+0

太棒了!谢谢! –