我想了解如何监测网站的变化作品,以及它背后使用的概念。 我可以考虑创建一个抓取整个网站的抓取工具,将抓取的网页与数据库中的一个商店进行比较,如果网页已更新,则将其覆盖在html中的旧页面,或者如果该网页不存在,则将其存储在数据库中。 所以这里是我的问题: 1-如何比较2个网页,如果他们是相同的?我是否需要按字符比较网页字符的字符串等值? 2-我是否需要抓取整个网站?让我们假设一个网站的HTML页面大小为5Gb,我想每小时检测一次该网站的变化,因此每小时爬行和下载5Gb数据将消耗大量带宽。网站监控如何工作?
我可以编写代码,我只想知道用于监控网站的一般做法。
非常感谢。
我认为它使用最后修改标头确定任何更改。如果有抓取请求,它会再次抓取它。 –