6
A
回答
4
Spark将shuffle操作中的中间数据存储在磁盘的“底层”优化中。当spark需要重新计算RDD图的一部分时,如果RDD已经存在,那么它可能会截断RDD图的沿袭,这是早期洗牌的副作用。即使RDD未被缓存或显式持久,也可能发生这种情况。
这个答案的来源是O'Reilly书籍Karau,Konwinski,Wendell的Learning Spark & Zaharia。第8章:调试和调试Spark。部分:执行组件:作业,任务和阶段。
相关问题
- 1. 将数据添加到存储在磁盘上的Spark/Parquet数据
- 2. Apache Cassandra磁盘上的数据存储
- 3. 如何估算Spark Shuffle所需的内存和磁盘?
- 4. Spark缓存:缓存为100%,而磁盘上的大小不为零,为什么?
- 5. MongoDB数据库中的数据如何存储在磁盘上?
- 6. Java Script对象存储在磁盘上的位置是什么?
- 7. InnoDB没有在磁盘上存储什么值?
- 8. RavenDB Embedded:存储在磁盘上的数据在哪里?
- 9. 为什么在存储在磁盘上时尝试比散列表慢?
- 10. 为什么Redis Hash Bucket保存磁盘?
- 11. RDFlib'磁盘'存储
- 12. RavenDB磁盘存储
- 13. 为什么核心数据不会保存到磁盘?
- 14. 将会话存储在磁盘上
- 15. Django:在磁盘上存储InMemoryUploadedFile
- 16. 在磁盘或MongoDB上存储文件
- 17. 如何将JSON数据存储在磁盘上?
- 18. 加密Mysql数据库存储在磁盘上的文件
- 19. 数据如何存储在磁盘上? - EFI GUID
- 20. mysql数据如何存储在磁盘上?
- 21. 将未使用的类数据成员存储在磁盘上
- 22. 数据库记录如何存储在磁盘上?
- 23. MongoDB - 在磁盘上存储SSD和数据收集索引?
- 24. 为什么jvm重启后ehcache磁盘存储失效?
- 25. 在Java中将对象存储在磁盘上的最佳方式是什么?
- 26. 存储空数据时是否消耗磁盘空间?
- 27. SQL Server 2014如何使用磁盘空间来存储数据
- 28. spark-mapwithstate为什么存储空间的数量仍然是20?
- 29. 在Azure Linux VM中,什么存在?什么磁盘收费?
- 30. 磁盘上的数据库存储,最佳实践
您可以将“spark.shuffle.spill”设置为false以将中间数据写入内存。 – Amos 2014-12-26 03:45:20
为什么这不是默认选项? – 2014-12-26 03:47:30