2
我正在寻找一种方法(不是库或框架,因为我似乎找不到)来检测网页内容中的更改。我查看了类似Tracking changes to web page content的帖子和白皮书(http://shodhganga.inflibnet.ac.in/bitstream/10603/2415/14/14_chapter%205.pdf),但无法找出一个好方法。检测网页内容中的更改
我不认为网页内容的md5是有用的,因为大多数网页的内容会根据您的请求发生轻微变化(例如,如果他们硬编码当天的日期)。
此外,我想找出一种方法来确定什么内容已经发生了实际变化(例如,运行差异化的内容看起来是不够的,但我首先需要弄清楚哪些内容是不同的)。
http://www.changedetection.com/这似乎做得很好。 任何方法或想法或链接,将不胜感激。
谢谢。
你最终找出解决方案吗? –