2014-01-29 52 views
0

我知道我可以,只要在网页是静态的如何检查动态网页是否已更新?

wget -S http://www.staticpage.com 

检查的最后修改时间。但是当对一个动态页面做同样的事情时,我总是会得到现在的时间。

那么,问问一个网站时,如果页面在任意时间以后或页面上次更新时发生了变化,那么侵入式方式是什么?我显然可以下载整个页面,并与我保存在文件中的内容进行比较,但我想减少开销。

+0

您只能信任修改日期服务器报告。使用动态页面时,如果服务器始终报告当前时间,则无法检测页面何时被修改! – RaviH

回答

1

动态页面逐字更新每个页面加载。如果你想知道何时更新动态页面,你需要查看页面本身或页面的RSS源。你最好的选择通常是下载它并解析出最新帖子的最新日期。

UPDATE: 如果要限制数据的下载网页,当你阅读,你可以使用以下的量:

curl http://someurl.com | head -c 512 

Linux将停止从流中读取和使用结束后,512个字节的请求这个。服务器要看到并停止传输。这可能会或可能不会发生,但至少您不会浪费更多带宽。

+0

但是,我必须下载整个页面吗?我不能只是下载一个零件,一些字在这里和那里,看看它们是否与本地保存的旧文件匹配?这就像是页面的指纹。 –

+0

查看我的更新以了解如何防止加载整个页面。不幸的是,网络上的大多数页面都是动态的,因此大部分内容都是静态的,因此大部分内容都会在主体中。 – krowe