火花提交作业的分区数量不断增加

-1

我们正在运行spark-submit命令以处理12个内核上的100GB数据。该命令创建了18个任务，因为它需要大量时间。我们想增加分区的数量来增加减少时间的任务数量。我们怎么做到这一点？火花提交作业的分区数量不断增加

分区数量通常从您的数据源派生，并在您执行第一次洗牌时更改为200。

您可以在任何时候在代码中重新分区。 rdd和dataframe都有重新分区方法（rdd也有repartitionAndSortWithinPartitions，并且dataframe的重新分区可以提供分区列，以便确保根据相关列重新分区）。

2016-11-28 07:48:43

无论谁低估了这个答案，你能解释一下它有什么问题吗？ –

我不知道谁downvoted它，但我喜欢你的答案，所以这里是一个upvote :) –

回答