2016-11-28 56 views
-1

我们正在运行spark-submit命令以处理12个内核上的100GB数据。该命令创建了18个任务,因为它需要大量时间。我们想增加分区的数量来增加减少时间的任务数量。我们怎么做到这一点?火花提交作业的分区数量不断增加

回答

1

分区数量通常从您的数据源派生,并在您执行第一次洗牌时更改为200。

您可以在任何时候在代码中重新分区。 rdd和dataframe都有重新分区方法(rdd也有repartitionAndSortWithinPartitions,并且dataframe的重新分区可以提供分区列,以便确保根据相关列重新分区)。

+0

无论谁低估了这个答案,你能解释一下它有什么问题吗? –

+0

我不知道谁downvoted它,但我喜欢你的答案,所以这里是一个upvote :) –

相关问题