2016-06-16 34 views
0

我是Spark新手,有问题Spark中分区越多越好?

Spark中分区越多越好?如果我有OOM问题,更多的分区有帮助吗?

+0

[RDD中的分区数量和Spark中的性能可能重复(http://stackoverflow.com/questions/35800795/number-of-partitions-in-rdd-and-performance-in-spark) – javadba

回答

0

分区决定了并行度。 Apache Spark doc指出,分区大小应该至少等于集群中的核心数量。

在分区很少的情况下,群集中的所有核心都不会被利用。 如果分区太多,数据量很小,那么就会有太多的小任务被安排。

如果你得到内存不足的问题,你将不得不增加执行程序的内存。它应该至少为8GB。

+1

I会补充说,分区被优化用于大约[128 MB,这是默认值]的分区(http://www.bigsynapse.com/spark-input-output)。 –