2012-03-10 174 views
2

我想知道是否有方法从我的银行网站用Python获取信息,我喜欢检索我的卡片历史记录并显示它,并且可能每月将它保存到文本文档中。Python从安全网站获取数据

我发现了网址登录并从网站获取信息,这是从浏览器工作,但我一直在使用liburl2从Python“打开”网页,我觉得它不工作,因为一些cookie或会话的东西。

我能得到我从一个网站,不需要与urllib2的登录,然后保存实际的HTML,后来通过它想要的任何信息,但我不能在我的银行网站,

任何帮助将理解

+0

这可能是困难的。您可能会使用浏览器线束框架来实际加载浏览器中的页面并自行填写表单字段。 – katrielalex 2012-03-10 14:56:38

+0

我遇到了这个http://wwwsearch.sourceforge.net/mechanize/ - 这是一个浏览器线束框架吗? – 2012-03-10 15:00:51

+0

http://doc.scrapy.org/en/latest/intro/overview.html可能值得一看。 – lvc 2012-03-10 15:03:57

回答

3

这是网络Scarping的一部分:

  • 的Web刮是一个标准的任务,可满足各种需求。
  • 刮数据进行安全,网站意味着https
  • 处理https不与mechanize问题,BeautifulSoup
  • 虽然urllib2HTTPCookieJar也能正常工作
  • 如果管理饼干的问题,那么我会建议mechanize

考虑您的银行站点的情况:

  1. 我建议不要玩你的帐户。
  2. 如果你一定要那么做,它不像任何普通的安全/非安全站点那么简单。
  3. 这些网站旨在支持这样的脚本。

问题,你会面对这样的:

  1. 银行网站必将验证码几乎是不可能旁路一个脚本,除非你的员工有很多的火箭科学和努力。
  2. 您肯定会遇到的其他问题是JavaScript,标准脚本解决方案专注于管理Cookie,HTML解析等。要在链接上处理JavaScript,您必须在Python脚本中处理js。这又需要很多努力。
  3. 然后,再次来自javascript的AJAX在页面加载后从服务器获取数据。

因此,它会要求你采取了很多的努力,做这个任务。

此外,如果您尝试这样做,你因为银行阻止访问您的帐户的风险点是快阻止上登录或验证码3-4不成功的尝试帐号等

所以,想在你做之前。

+0

如果您在脚本中有您的用户名和密码,您是否可以将它们传递到网站以访问您的数据?这不是说像Mint.com这样的网站如何工作? – 2015-04-01 20:29:12