我想了解Scala的哈希函数对于大哈希表的规模有多好(数十亿条目,例如用于存储特定位数的DNA出现)。有趣的是,HashMap和OpenHashMap都忽略了指定初始大小(2.9.2。和2.10.0,最新版本)的参数。Scala:哈希忽略初始大小(数十亿条目的快速哈希表)
我认为这是因为在第一个800.000左右之后添加新元素变得非常慢。
我已经尝试增加要插入的字符串中的熵(仅在下面的代码中使用字符ACGT),而没有效果。
对此特定问题有何建议?我也希望听到您对使用Scala内置类型是否是一个拥有数十亿条目的散列表的好主意的看法。
import scala.collection.mutable.{ HashMap, OpenHashMap }
import scala.util.Random
object HelloWorld {
def main(args: Array[String]) {
val h = new collection.mutable.HashMap[String, Int] {
override def initialSize = 8388608
}
// val h = new scala.collection.mutable.OpenHashMap[Int,Int](8388608);
for (i <- 0 until 10000000) {
val kMer = genkMer()
if(! h.contains(kMer))
{
h(kMer) = 0;
}
h(kMer) = h(kMer) + 1;
if(i % 100000 == 0)
{
println(h.size);
}
}
println("Exit. Hashmap size:\n");
println(h.size);
}
def genkMer() : String =
{
val nucs = "A" :: "C" :: "G" :: "T" :: Nil
var s:String = "";
val r = new scala.util.Random
val nums = for(i <- 1 to 55 toList) yield r.nextInt(4)
for (i <- 0 until 55) {
s = s + nucs(nums(i))
}
s
}
}
你不打算用完内存吗? –
32或64位jvm?关于忽略初始大小:它没有,你可以检查HashMap的源代码 – Arjan
感谢您的答案。为了澄清,这将被部署在具有256G + RAM的机器上。 @Noah:但每次翻倍后都要复制桶内容,对吧?但即使这是真的,它也没有向我解释为什么在重复800.000次左右之后出现这种性能下降的情况 - 我认为重新排列后会急剧下降,然后再恢复到全速。 – Alexander