Shingleprinting如何在实践中工作？

我正在尝试使用shingleprinting来衡量文档的相似度。该过程涉及以下步骤：Shingleprinting如何在实践中工作？

步骤3包括产生非常长的序列的随机置换。使用Knuth-shuffle似乎是不可能的。有没有这个捷径？请注意，最终我们只需要得到的排列的单个元素。

2010-07-09 mdm

警告：我对此不是100％肯定，但我已阅读了一些论文，我相信这是它的工作原理。例如，Piotr Indyk在“一个近似小的独立散列函数族”中写道：“在与Altavista集成的实现中，集合H被选择为散列函数的成对独立系列。”

在步骤3中，实际上并不需要[n]上的随机排列（从1到n的整数）。事实证明，成对独立的哈希函数在实践中起作用。所以你要做的是选择一个独立的哈希函数h。然后将h应用于每个木瓦哈希。您可以在步骤4中取这些值的最小值。

标准的成对独立散列函数是h（x）= ax + b（mod p），其中a和b是随机选择的，p是素数。

2011-05-09 23:56:41

回答