2013-03-25 142 views
4

我正在用PHP编写一个工具,它比较HTML文件并显示差异。现在我正在寻找一种有效的方法来计算两个HTML文件之间的百分比差异。这些文件可以是任意长的(我拥有的文件可以长达300000个字符)。计算两个HTML文件的百分比差异

经过一番研究,我偶然发现了Oven(n * m)算法的Levensthein距离并且需要空间O(n * m):PHP版本最多只能支持255个字符,而我自己实现的O (n)空间太慢了。 之后,我尝试了php函数similar_text,但是对于非常大的HTML文件,该算法也太慢。

所以现在我正在寻找另一种更高效的算法来比较HTML文件。近似算法也很好。任何人都可以给我一些关于如何做到这一点的建议吗?

+0

您是否需要比较文件或其内容?如果你strip_tags文件会更短。 – Voitcus 2013-03-25 14:37:24

+0

我想这取决于你正在检查的差异?例如空白计数等? – diagonalbatman 2013-03-25 14:37:32

+1

为什么不能运行diff并使用其输出? – 2013-04-02 03:48:23

回答

1

,可以设定扩展x差值:

http://www.php.net/manual/en/function.xdiff-file-diff.php

然后获取这两个文件的差异,并基于该差异,你可以很容易地来与百分比。

实施例:

  • 第一文件进行:400个字
  • 第二个文件B:400个字

DIFF结果:200个字从一个diff到B

这将使你有50%的相似性。