1
M
矩阵是签名矩阵,其经由Minhashing产生的实际数据的,具有文档作为为行列和单词。所以一列代表一份文件。
现在它说每个条纹(b
的数量,r
的长度)都有其列的散列,以便列落入一个桶中。如果两列落入同一个桶中,对于> = 1条纹,则它们可能相似。
这意味着我应该创建b
散列表并找到b
独立散列函数?或者只有一个就足够了,每个条带都将其列发送到相同的存储桶集合(但是这不会取消条带)?
在这种情况下,字典是否足够用于散列表*?
* Is a Python dictionary an example of a hash table?