Spark中分区越多越好？

Spark中分区越多越好？如果我有OOM问题，更多的分区有帮助吗？

2016-06-16 qingpan

[RDD中的分区数量和Spark中的性能可能重复（http://stackoverflow.com/questions/35800795/number-of-partitions-in-rdd-and-performance-in-spark） – javadba

分区决定了并行度。 Apache Spark doc指出，分区大小应该至少等于集群中的核心数量。

在分区很少的情况下，群集中的所有核心都不会被利用。如果分区太多，数据量很小，那么就会有太多的小任务被安排。

如果你得到内存不足的问题，你将不得不增加执行程序的内存。它应该至少为8GB。

2016-06-16 17:20:56 Dazzler

I会补充说，分区被优化用于大约[128 MB，这是默认值]的分区（http://www.bigsynapse.com/spark-input-output）。 –

回答