问题是: 我有一个文本文件的集合,我想拿起最相似的一个输入文件。 输入文本文档可以完全匹配或部分修改。 算法必须非常快。simhash like算法来比较两个文本文件
目前,我发现simhash从收集文件中获取指纹。有没有其他算法可以做同样的事情?
问题是: 我有一个文本文件的集合,我想拿起最相似的一个输入文件。 输入文本文档可以完全匹配或部分修改。 算法必须非常快。simhash like算法来比较两个文本文件
目前,我发现simhash从收集文件中获取指纹。有没有其他算法可以做同样的事情?
你试过LSH(局部敏感哈希)技术
LSH(局部敏感哈希)技术是通用的索引方法。他们非常有效地找到近似的近邻。
SimHash是LSH的哈希算法之一。它对实值数据使用余弦相似度。
MinHash是LSH的另一个哈希算法。它计算二元向量上的相似度相似度。
Mining of Massive Dataset, Chapter 3 by Anand Rajaraman and Jeff Ullman.特别是对问题空间和MinHash的介绍。