火花作业成功完成后,持续的Spark RDD会发生什么?Spark Job完成后持续的RDD会发生什么?
我们是否需要明确地编写一些代码以使其不符合要求?
或
不存在于每一坚持RDD unpersisting自动发生?
火花作业成功完成后,持续的Spark RDD会发生什么?Spark Job完成后持续的RDD会发生什么?
我们是否需要明确地编写一些代码以使其不符合要求?
或
不存在于每一坚持RDD unpersisting自动发生?
我们需要明确地编写一些代码来unpersist呢?
是
是否unpersisting自动为每个坚持RDD发生什么呢?
没有,你需要通过调用
RDD.unpersist()
或
df1.unpersist()
并做明确总是unpersist血统结束后的DF,涉及持久性/缓存DF最后一个动作后, 。
火花的官方文件说
火花自动监视每个节点上高速缓存的使用,并滴出在一个最近最少使用(LRU)方式的旧数据的分区。如果您想要手动删除RDD而不是等待其从缓存中删除,请使用RDD.unpersist()方法。
请看看http://spark.apache.org/docs/latest/programming-guide.html#removing-data
是的,非常感谢您的干净答案。最后一次行动后,我将不执行我的DF。 –
@ sanket:如果我在Spark Job中只有一个Action,那么坚持RDD是否是一个好习惯。如果坚持使用RDD,我在性能方面是否会获得任何好处? –