0
我正在使用spark来处理大文件,我有12个分区。 我有rdd1和rdd2我做了他们之间的连接,比选择(rdd3)。 我的问题是,我咨询了最后一个分区比其他分区太大,从分区1到分区但分区12 9100000 recodrs
。 所以我分9100000/45000 =~ 203
。我重新分区我的rdd3到214(203+11)
但我最后一个分区仍然太大。 我如何平衡我的分区的大小?用火花指定分区大小
我写我自己的自定义分区程序?
是'repartition'和'partitionBy' –
您能否详细说明您尝试了什么,以及您得到的反馈表明他们没有工作? –
也请包括代码,以便我们可以看到在此过程中您正在重新分区。 –