Wget文件格式

我必须下载所有站点内容，然后解析下载的文件夹以查找“* .pdf”文件。我下载的网站使用wget -r --no-parent http://www.example.com/但问题是，有时链接看起来这Wget文件格式

http://www.foodmanufuture.eu/dpubs?f=K20

和dowloaded PDF下载名称为“dpubs？F = K20”和文件格式没有指定，它看起来并不像这样“dpubs？f = K20.pdf”，有没有办法检查我在这个文件夹中有多少pdf文件？

来源

2017-02-12 Alexander Demichev

你可以使用命令

file filename

像这样：

file pdfurl-guide 
pdfurl-guide: PDF document, version 1.5

你可以使用：

file *

确切地知道哪些文件的文件夹中的PDF文件

来源

2017-02-12 18:08:23

你有没有试过--content-disposition的标志？从手册页：

如果将此设置为on，则启用对“Content-Disposition”标头的实验性（非全功能）支持。这可能会导致额外往返服务器的“HEAD”请求，并且已知会遇到一些错误，这就是为什么默认情况下当前未启用它的原因。 此选项对于某些使用“Content-Disposition”标头的文件下载CGI程序来描述下载文件的名称应该是。

因此，它试图询问服务器的文件名。我尝试了你给的URL，它似乎工作。

来源

2017-02-12 18:13:27 CannibalGorilla

太棒了！谢谢！ –

回答

相关问题