获取当前版本的网页

如何在Wget或Python中获取当前版本的网页？我需要完全关闭缓存。获取当前版本的网页

我正试图编写代码，每秒下载http://robocademy.com/courses/arduino/get_code/。使用Python的urllib和Wget我没有像在Chrome中那样获取当前文件。我试过

wget --cache=off --user-agent="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" http://robocademy.com/courses/arduino/get_code/

和urllib的与urllib.urlcleanup

响应头在Chrome：在Wget的

Accept-Ranges:bytes 
Age:0 
Connection:keep-alive 
Content-Encoding:gzip 
Content-Length:449 
Content-Type:text/plain 
Date:Wed, 28 Nov 2012 23:20:24 GMT 
Server:nginx 
Vary:Accept-Encoding 
Via:1.1 varnish 
X-Varnish:400211059

响应头

HTTP/1.1 200 OK 
Server: nginx 
Content-Type: text/plain 
Keep-Alive: timeout=20 
Vary: Accept-Encoding 
Transfer-Encoding: chunked 
Date: Wed, 28 Nov 2012 23:22:20 GMT 
X-Varnish: 400216320 400212892 
Age: 76 
Via: 1.1 varnish 
Connection: keep-alive

来源

2012-11-28 Timothy Clemans

这是什么问题？ – Lior

如何在Wget或Python中获取当前版本的网页？ –

您*正在*获取当前版本的网页，因为服务器被配置为提供服务。您是否有特定的原因，您为什么要根据管理员的意图覆盖服务器的配置？ –

-1

你可以尝试添加--no-cache去wget。根据手册：

禁用服务器端缓存。在这种情况下，Wget会向远程服务器发送适当的指令（'Pragma：no-cache'）以从远程服务获取文件，而不是返回缓存版本。这对检索和清除代理服务器上的过期文档特别有用。

默认情况下允许缓存。

cache=off应该在wgetrc文件中。

对于Python，您可以考虑这个answer。

来源

2012-11-28 23:48:11 Bula

他的问题不是用wget，而是用python .... – tink

你确定吗？问题是：如何在Wget或Python中获取当前版本的网页？ – Bula

我的问题的第4行说我试过--no-cache –

获取当前版本的网页

回答

相关问题