如何将网页保存为其地址具有.aspx的文件

http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id=487319

我试过wget和卷曲，他们说“没有发现匹配”。

我现在要做的是我想编写一个像下面这样的python脚本来保存许多类似的页面。

foreach prop_id in range(400000, 410000): 
    cmd = 'wget http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id={} > {}.txt'.format(prop_id, prop_id) 
    os.system(cmd)

背景：我需要解析的评估值来建立我的房产税的抗议的情况。手动点击东西来收集样品太费时了！

来源

2014-05-21 Min

看起来这个链接在浏览器外不起作用我知道了。 – Min

最简单的方法是使用requests库。首先，我们应该获得会话ID（在我们访问主页后它将会在一个cookie中）。然后我们可以使用这些cookie下载页面（会话ID）。

import requests 

session = requests.Session() 

#Get session cookies (session ID) 
index_url = 'http://propaccess.traviscad.org/clientdb/?cid=1' 
index_request = session.get(index_url) 
session_cookies = index_request.cookies 

#Download pages 
for prop_id in range(400000, 410001): 
    url = 'http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id=%s' % prop_id 
    r = session.get(url,cookies = session_cookies) 
    print r.text #r.text contains page content

页面内容将在r.text。

来源

2014-05-22 07:26:13 NorthCat

谢谢！看起来我可以用请求库做很多事情。 – Min

如何将网页保存为其地址具有.aspx的文件

回答

相关问题