这还不是编程问题!比较web页面 - simhash和DOM边缘节点处理
但我正在研究如何比较网页以查看页面是否相同/相似。这是一个个人项目,而不是工作/学校...(只是说!)
我找到了一些基本的simhash实现,并想知道是否有人可以指向我一个非常好的强大的py/php simhash实现。我宁可不要在这方面重新发明轮子。另外,我对潜在能够为给定页面计算/生成DOM结构感兴趣,然后计算树/结构的“结束/边缘”节点以确定这可能是一种方法确定页面的相似性。
因此,我也对任何可用于生成给定页面的DOM结构列表的工具/应用感兴趣。我原以为'网络搜索会导致许多py/php/apps为测试目的生成这种图形/列表。
我也可以认识到,我可能只是在我的搜索中使用错误的术语。
因此,关于在哪里看的想法和意见,需要考虑的事情将是受欢迎的。
感谢
您是否关心JavaScript的dom更改,或只是最初交付的html? – 2012-01-11 17:16:13
为我的测试,我已经提取了HTML /数据,并正在处理返回的HTML文档。这就是我对比较研究感兴趣的原因。我将要有〜1000页的比较,并且从这个语料库/域,该过程必须通过算法确定独特的页面。所以在我想要开发的解决方案中没有jscript。我正在寻找soln以在php/python中。谢谢 – 2012-01-11 17:19:32
嗯,我想这回答了我的问题:)只是确保你不需要像提取DOM之前的浏览器那样对待HTML。 – 2012-01-11 17:33:00