2
A
回答
2
我相信这是因为你可以在多个地点同一个分区的缓存。有关更多详细信息,请参见SPARK-4049。
编辑:
如果也许你已经设置speculative execution(见spark.speculation
)我不知道?如果你的任务很复杂,他们会重新启动,我相信它会复制一个分区。此外,另一个有用的事情可能是致电rdd.toDebugString
,它将提供关于RDD的大量信息,包括转换历史记录和缓存分区的数量。
相关问题
- 1. 滑动,当缓存大小大于50 mb时清除缓存
- 2. 如何禁用缓存100%
- 3. Spark缓存:缓存为100%,而磁盘上的大小不为零,为什么?
- 4. 为什么docker stats CPU百分比大于100倍核心数
- 5. 我如何存储大于100亿的数字
- 6. wordpress抓取大于id的数据100
- 7. 性能计数器大于100%
- 8. 缓存大量数据
- 9. sklearn.gaussian_process fit()不适用于大于100的数组大小
- 10. 复制高速缓存中的数据大于一个高速缓存行
- 11. 网站宽度大于100%
- 12. 中心为大于100%
- 13. Caffe精度大于100%
- 14. APC缓存变量大于user_entries_hint
- 15. 缓存内存中的大量数据
- 16. 基于登录用户缓存部分
- 17. PHP APC缓存不起作用100%
- 18. ASP.NET缓存最大大小
- 19. 最大缓存大小
- 20. .net缓存大小
- 21. HTML5缓存大小?
- 22. 动态分配缓存大小以缓解堆空间错误
- 23. 用于大型数据集的Perl缓存库?
- 24. 用于大型数据集的Azure缓存
- 25. 保存数据库中缓存/内存中的大部分对象?
- 26. Symfony2缓存包(类似于Zend缓存)
- 27. Symfony缓存问题(缓存部分)
- 28. ASP.NET InProc缓存vs分布式缓存
- 29. AppFabric缓存 - 查询分布式缓存
- 30. 在c3量表中显示大于100的百分比值
我没有在任何RDD上调用两次。其他什么操作可能导致这种情况?有没有一种方法可以找出哪个RDD被缓存两次?谢谢! – Edamame
查看您的UI,缓存两次的RDD具有500个分区(RDD 19)和50个分区(RDD 30)。您可以在每个RDD上以编程方式调用'rdd.partitions.size'(或pyspark中的'rdd.getNumPartitions()')来确定哪个RDD超过了100%。 –