2012-11-28 85 views
1

如何在Wget或Python中获取当前版本的网页?我需要完全关闭缓存。获取当前版本的网页

我正试图编写代码,每秒下载http://robocademy.com/courses/arduino/get_code/。使用Python的urllib和Wget我没有像在Chrome中那样获取当前文件。 我试过

wget --cache=off --user-agent="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" http://robocademy.com/courses/arduino/get_code/ 

和urllib的与urllib.urlcleanup

响应头在Chrome:在Wget的

Accept-Ranges:bytes 
Age:0 
Connection:keep-alive 
Content-Encoding:gzip 
Content-Length:449 
Content-Type:text/plain 
Date:Wed, 28 Nov 2012 23:20:24 GMT 
Server:nginx 
Vary:Accept-Encoding 
Via:1.1 varnish 
X-Varnish:400211059 

响应头

HTTP/1.1 200 OK 
Server: nginx 
Content-Type: text/plain 
Keep-Alive: timeout=20 
Vary: Accept-Encoding 
Transfer-Encoding: chunked 
Date: Wed, 28 Nov 2012 23:22:20 GMT 
X-Varnish: 400216320 400212892 
Age: 76 
Via: 1.1 varnish 
Connection: keep-alive 
+0

这是什么问题? – Lior

+0

如何在Wget或Python中获取当前版本的网页? –

+1

您*正在*获取当前版本的网页,因为服务器被配置为提供服务。您是否有特定的原因,您为什么要根据管理员的意图覆盖服务器的配置? –

回答

-1

你可以尝试添加--no-cache去wget。根据手册:

禁用服务器端缓存。在这种情况下,Wget会向远程服务器发送适当的指令('Pragma:no-cache')以从远程服务获取文件,而不是返回缓存版本。这对检索和清除代理服务器上的过期文档特别有用。

默认情况下允许缓存。

cache=off应该在wgetrc文件中。

对于Python,您可以考虑这个answer

+0

他的问题不是用wget,而是用python .... – tink

+0

你确定吗?问题是:如何在Wget或Python中获取当前版本的网页? – Bula

+0

我的问题的第4行说我试过--no-cache –