2012-11-15 297 views
2

我正在寻找一种方法(不是库或框架,因为我似乎找不到)来检测网页内容中的更改。我查看了类似Tracking changes to web page content的帖子和白皮书(http://shodhganga.inflibnet.ac.in/bitstream/10603/2415/14/14_chapter%205.pdf),但无法找出一个好方法。检测网页内容中的更改

我不认为网页内容的md5是有用的,因为大多数网页的内容会根据您的请求发生轻微变化(例如,如果他们硬编码当天的日期)。

此外,我想找出一种方法来确定什么内容已经发生了实际变化(例如,运行差异化的内容看起来是不够的,但我首先需要弄清楚哪些内容是不同的)。

http://www.changedetection.com/这似乎做得很好。 任何方法或想法或链接,将不胜感激。

谢谢。

+0

你最终找出解决方案吗? –

回答

0

HTTP Last-Modified和ETag标题可能是一种方法。但是,如果您抓取的网页没有实现它们,则会留下文本相似性检测结果。