2011-11-29 41 views
3

我不知道我想要什么是可能的,但是这是:有一种方法可以生成某种文本的哈希以进行比较?

假设我有一些短语,我想要生成某种可以代表文本的短语字符串。我会将其应用于很多文本。之后,我比较所得到的字符串,以查看一个文本与另一个文本的差异程度。

我并不需要知道在哪里的差异或检索原始的字符串,我只需要这个比较字符串。

有这样的事情吗?我正在复杂的解决方案?

+0

如果你想要测量**两个字符串之间有多少**差异,那么散列并不是你想要的。 –

+0

@OliCharlesworth是的,哈希不是,但类似的东西。 –

回答

4

有这样的技术,被称为模糊哈希。看看ssdeep。您也可能对论文Identifying almost identical files using context triggered piecewise hashing感兴趣。

相关问题