我试图从Natwest的网上银行服务中使用PHP/cURL提取信息 - 这个想法是,如果它实际上可以做,那么我可以做一个更加移动化的网站,访问该服务的友好站点,或者可能是Android应用。cURL和刮检查框架支持的网站
这些页面显然使用了一些涉及Javascript,框架集和谁知道还有什么的安全功能。据我所知,Javascript中没有cookie操作(我可以看到),但是页面源代码中生成的URL发生了一些事情......并且每当我尝试查看将成为部分的页面时cURL只显示框架集页面。如果我在请求登录页面时选择不遵循重定向,我只会收到一条消息,指出“对象已移动” - 并指向框架集页面的链接。任何想法,我要去错了吗?
<?
$ckfile = tempnam ("/tmp", "COOKIE");
// INITIAL REQUEST TO SITE TO GET COOKIE
$ch = curl_init();
$userAgent = "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US)"
. "AppleWebKit/534.16 (KHTML, like Gecko) "
. "Chrome/10.0.648.151 Safari/534.16";
curl_setopt($ch,CURLOPT_USERAGENT, $userAgent);
curl_setopt($ch, CURLOPT_URL, 'http://www.nwolb.com');
curl_setopt($ch, CURLOPT_COOKIEJAR, $ckfile);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
$data = curl_exec($ch);
// EXTRACTING OTHER POSS REDIRECTS/FRAMESET URLs FROM RESULTING PAGE...
// A Javascript function on the default.aspx page specifies a
// top.window.document redirect, I store this in $newurl in case it's needed
preg_match('/top\.window\.document\.location\.href = \'(?P<url>.*)\';/', $data, $newurl);
// It's the login page I want, the Frameset page does specify a link,
// but (what I assume is) the frame-breaking protection sends me back to
// the frameset page every time...
preg_match('/login.aspx\?(?P<referer>.*)"><\/frame>/', $data, $loginurl);
//Subsequent request, attempting to bring up the login page
curl_setopt($ch, CURLOPT_URL, 'https://www.nwolb.com/login.aspx?' . $loginurl['referer']);
$data = curl_exec($ch);
curl_close($ch);
?>
这是一个值得放弃的实验,还是可能实现? PHP是这份工作的正确工具吗?或者,试试像Ruby上的Watir这样的产品会更好吗?
嗯,你养好指出我将通过代理提供银行服务的事实,并且可能很快就会被关闭/被起诉。我其实并没有想到... 我不会经历它。如果有解决方案,我仍然对解决方案感兴趣...纯粹是因为你永远不知道将来会出现什么。您提到的“辅助功能”链接基本上告诉人们,该网站与具有辅助功能选项的浏览器/操作系统兼容,并且如果听力困难,他们可以使用电话服务。 – t0mgerman 2011-03-27 04:09:39
哎呀 - 你是对的。我误以为“加载可访问性页面”功能意味着“为屏幕阅读器加载页面”而不是其实际内容 - “加载说'我们支持屏幕阅读器'的页面”。但策略是合理的 - 如果您发现支持移动设备或屏幕阅读器的页面,他们通常对iframe,脚本,嵌入式媒体等的依赖程度要低得多。 – 2011-03-27 04:23:39