我有实施minhashing问题哈希函数。在纸上和阅读我理解这个概念,但我的问题是排列“诡计”。代替置换的集矩阵的和值实施的建议是:“摘K(例如,100)独立的散列函数”,然后该算法表示:最小哈希实现如何找到排列
for each row r
for each column c
if c has 1 in row r
for each hash function h_i do
if h_i(r) is a smaller value than M (i, c) then
M(i, c) := h_i(r)
在不同的小的实施例和教导book他们仅使用两个或者(h = a * x + b mod p)形式的三个散列函数。这很容易找到,但在实践中怎么做,我怎么能找到100个这样的独立功能。
在Java示例here有生成的哈希值只能从一个散列函数,而不是多散列函数,不依赖于行索引的。区别在哪里? 我的问题是现在如何找到这些独立的散列函数或者如果有一种方法只有一个哈希函数如何在算法把这些价值?