火花的性能比较,是能够更好地partitionBy
后使用lookup
从性能的角度来看,对像:查找与mapPartitions与类型的字典
sc.parallelize(range(4000000)) \
.mapPartitions(lambda l: [ dict([ (i,i) for i in l ]) ]) \
.map(lambda d: d.get(33, None)) \
.collect()
我的目的是模拟与快速查找分布式哈希映射。
我在这里看不到分布式HashMap。您正在创建字典的RDD,然后尝试从字典中获取33元素... – eliasah
eliasah正确,我试图模拟一个,而不是构建一个。 – FallingSkies
RDD已经发布,并有它自己的哈希函数,所以你想模拟什么?当然,你想做什么不清楚,没有冒犯。 – eliasah