0
A
回答
0
分区决定了并行度。 Apache Spark doc指出,分区大小应该至少等于集群中的核心数量。
在分区很少的情况下,群集中的所有核心都不会被利用。 如果分区太多,数据量很小,那么就会有太多的小任务被安排。
如果你得到内存不足的问题,你将不得不增加执行程序的内存。它应该至少为8GB。
+1
I会补充说,分区被优化用于大约[128 MB,这是默认值]的分区(http://www.bigsynapse.com/spark-input-output)。 –
相关问题
- 1. API等级:越低越好?
- 2. 越来越多的树/分形动画
- 3. 越来越部分
- 4. 在一个网络中,节点间的链路越多越好?
- 5. 布局越来越分心?
- 6. C#Event Handlers越来越多
- 7. Java数组越来越多
- 8. 越来越多的机会
- 9. JSF1064获得越来越多
- 10. 屏幕越来越小,分辨率越来越高
- 11. 从HTTP到HTTPS,越快越好?
- 12. 比分越低越好的游戏故事
- 13. solr从分片中请求越来越多的行
- 14. 越来越沮丧试图建立伪分区hadoop集群
- 15. hadoop分区程序越来越不正确减少计数
- 16. 越来越多行与许多IDS
- 17. BerkeleyDB越来越胖,越来越慢
- 18. 管理实体越来越分离
- 19. 越来越分钟差异对象
- 20. 越来越部分XML使用jQuery
- 21. 越来越计算第90百分位
- 22. 跨越多个年SELECT语句段分组跨越闰年
- 23. 跨越多个UITableViewCells(分组)的跨越背景图像
- 24. iOS应用程序分配越来越多的内存
- 25. Cassandra性能:列数越少列数越少,列数越少列数越多
- 26. MATLAB如何与复制越来越多
- 27. 越来越多的日志数据
- 28. 越来越多的信号手柄
- 29. Webapp越来越慢,多个ajax请求
- 30. iOS AutoLayout越来越多的行
[RDD中的分区数量和Spark中的性能可能重复(http://stackoverflow.com/questions/35800795/number-of-partitions-in-rdd-and-performance-in-spark) – javadba