Spark Job完成后持续的RDD会发生什么？

火花作业成功完成后，持续的Spark RDD会发生什么？Spark Job完成后持续的RDD会发生什么？

我们是否需要明确地编写一些代码以使其不符合要求？

或

不存在于每一坚持RDD unpersisting自动发生？

我们需要明确地编写一些代码来unpersist呢？

是

是否unpersisting自动为每个坚持RDD发生什么呢？

没有，你需要通过调用
RDD.unpersist()
或
df1.unpersist()
并做明确总是unpersist血统结束后的DF，涉及持久性/缓存DF最后一个动作后，。

2017-05-08 10:41:29

是的，非常感谢您的干净答案。最后一次行动后，我将不执行我的DF。 –

@ sanket：如果我在Spark Job中只有一个Action，那么坚持RDD是否是一个好习惯。如果坚持使用RDD，我在性能方面是否会获得任何好处？ –

火花的官方文件说

火花自动监视每个节点上高速缓存的使用，并滴出在一个最近最少使用（LRU）方式的旧数据的分区。如果您想要手动删除RDD而不是等待其从缓存中删除，请使用RDD.unpersist（）方法。

2017-05-08 10:35:02 berrytchaks

回答