2012-05-11 40 views
2

我遇到以下问题。我需要镜像密码保护的网站。听起来简单的任务:如何在使用wget镜像网站时跳过选定的网址

wget -m -k -K -E --cookies=on --keep-session-cookies --load-cookies=myCookies.txt http://mysite.com 

在myCookies.txt我保持适当的会话cookie。直到wget出现在注销页面之前,这一行为才会生效 - 然后会话失效,实际上,进一步的镜像无效。

W¯¯试图添加--reject选择,但它仅与文件类型的作品 - 我能只阻止HTML文件下载或SWF文件下载,我不能说

--reject http://mysite.com/*.php?type=Logout* 

任何想法如何跳过某些URL在wget中?也许有其他工具可以完成这项工作(必须在MS Windows上工作)。

回答

4

如果你第一下载(甚至只是touch)的注销页面,然后

wget --no-clobber --your-original-arguments 

这应该跳过登出页面,因为它已经被下载

(免责声明:我自己没有尝试过)

+0

+1;我做了'touch page.php?type = Logout',然后'wget --no-clobber http://tkos.co.il/page.php?type = Logout'并得到了'File'page.php?type = Logout ' 已经在那了;没有检索到。' –

+0

用HTTrack实现同样的功能非常简单:httrack.exe http://mysite.com --mirror --cookies = 1 - *注销*假设cookie位于cookies.txt文件中 –