1
我有一台设置htaccess的服务器。当我想从中下载文件,我只是执行:wget创建了许多其他文件
wget -r --user="user" --password="password" -q 'http://server'
所有文件被下载,但wget
每个目录中也创造了许多其他文件index.html?something
,我必须manualy删除它们。是否有可能不创建该文件?
我有一台设置htaccess的服务器。当我想从中下载文件,我只是执行:wget创建了许多其他文件
wget -r --user="user" --password="password" -q 'http://server'
所有文件被下载,但wget
每个目录中也创造了许多其他文件index.html?something
,我必须manualy删除它们。是否有可能不创建该文件?
见--accept
和--reject
选项,如果你的wget
suppors他们的版本:
-A acclist --accept acclist -R rejlist --reject rejlist
指定文件名后缀或图案的逗号分隔的列表,以接受或拒绝。请注意, 如果任何通配符字符*,?,[或]出现在acclist或rejlist的元素中,它将被视为模式,而不是后缀。
“东西”与什么关联?它是由爬网触发的帖子变量,它是用户名吗? – dongle
它创建的文件如下:'index.html?A = B&C = D'我认为奇怪的是因为'index.html'是一个静态页面,没有任何像PHP或JavaScript的东西。 –
如果没有看到您尝试抓取的内容,则很难进一步提供建议。 – dongle