我想从需要认证的页面下载网页源代码,在Linux机器上使用shell脚本或类似的东西(如Perl,Python等)。从需要认证的页面下载网页源代码
我试着使用wget和curl,但是当我传递URL时,正在下载的源代码就是要求我提供凭据的页面。同一个页面已经在Firefox或Chrome上打开,但我不知道如何重新使用此会话。
基本上我需要做的就是定期在这个页面上运行一次刷新,并且在源代码里面grep一些信息。如果我找到了我要找的东西,我会触发另一个脚本。
- 编辑 -
韩国社交协会@Alexufo。我设法使它工作,这样一来:
1 - 下载一个Firefox的插件,让我保存cookies在一个TXT文件。我用这个插件:https://addons.mozilla.org/en-US/firefox/addon/export-cookies/
2 - 登录我想要的网站,并保存了cookie。
3 - 使用wget:
wget --load-cookies=cookie.txt 'http://my.url.com' -O output_file.txt
4 - 现在的网页源代码里output_file.txt,我可以分析我想要的方式。