2011-06-13 38 views
1

问题是: 我有一个文本文件的集合,我想拿起最相似的一个输入文件。 输入文本文档可以完全匹配或部分修改。 算法必须非常快。simhash like算法来比较两个文本文件

目前,我发现simhash从收集文件中获取指纹。有没有其他算法可以做同样的事情?

回答

1

你试过LSH(局部敏感哈希)技术

0

LSH(局部敏感哈希)技术是通用的索引方法。他们非常有效地找到近似的近邻。

SimHash是LSH的哈希算法之一。它对实值数据使用余弦相似度。

MinHash是LSH的另一个哈希算法。它计算二元向量上的相似度相似度。

Mining of Massive Dataset, Chapter 3 by Anand Rajaraman and Jeff Ullman.特别是对问题空间和MinHash的介绍。