2011-01-26 34 views
0

我正在尝试从网站自动化一些数据记录。但是,因为用户必须通过登录屏幕,所以wget cronjob将不起作用,并且因为我需要发出HTTPS请求,所以简单的Perl脚本也不起作用。我已经尝试着查看Firefox的“DejaClick”插件,以重播一系列浏览器事件(登录到网站,浏览有趣的数据,下载页面等),但插件的开发人员出于某种原因不包括将页面保存为一项功能。自动保存需要登录/ HTTPS的网页

是否有任何快速的方法来完成我在这里要做的事情?

+0

一段时间,我用机械化http://wwwsearch.sourceforge.net/mechanize/,发现它非常有帮助。但我想这不能用HTTPS,所以我不会将它作为答案。 – initall 2011-01-26 14:26:10

回答

0

后来我用机械化wwwsearch.sourceforge.net/mechanize,发现它非常有帮助。它支持urllib2,所以它应该也可以用于我现在阅读的HTTPS请求。所以我上面的评论可能有希望证明是错误的。

0

您可以使用IRobotSoft web scraper记录您的操作。在此处查看演示:http://irobotsoft.com/help/

然后使用saveFile(filename,TargetPage)函数来保存目标页面。