1

enter image description here混乱散列法使用LSH

M矩阵是签名矩阵,其经由Minhashing产生的实际数据的,具有文档作为为行列和单词。所以一列代表一份文件。

现在它说每个条纹(b的数量,r的长度)都有其列的散列,以便列落入一个桶中。如果两列落入同一个桶中,对于> = 1条纹,则它们可能相似。

这意味着我应该创建b散列表并找到b独立散列函数?或者只有一个就足够了,每个条带都将其列发送到相同的存储桶集合(但是这不会取消条带)?

在这种情况下,字典是否足够用于散列表*

* Is a Python dictionary an example of a hash table?

回答

0

我想我想通了,发布了未来的读者。

我打算使用一个字典,因为幻灯片提到可以对每个条纹使用相同的散列函数(dictionaries do that)。

每个桶都是我们词典的关键。

在插入时,一个文件(即属于以条纹的柱)将由散列函数(其我们将创建)被传递,结果应该是一个键。这样我们的字典将被填充。