最后一个分区上的Spark转换非常缓慢

我正在运行一种迭代算法，在每次迭代中，每个值的列表都被分配一组键（1到N）。随着时间的推移，文件在键上的分布会变得不对称。我注意到经过几次迭代，合并阶段，似乎RDD的最后几个分区上的事情似乎开始非常缓慢。最后一个分区上的Spark转换非常缓慢

我的变换如下：

dataRDD_of_20000_partitions.aggregateByKey(zeroOp)(seqOp, mergeOp) 
    .mapValues(...) 
    .coalesce(1000, true) 
    .collect()

这里，在我以前分配的键aggregatebykey聚集体（1到N）。我可以合并分区，因为我知道我需要的分区数量，并将coalesce shuffle设置为true以平衡分区。

任何人都可以指出一些原因，这些转换可能导致RDD的最后几个分区处理缓慢？我想知道这是否与数据偏斜有关。

2016-01-17 foboi1122

我有一些意见。

2016-01-17 11:32:03

回答