2016-04-21 54 views
0

我正在考虑缓存一个RDD,这些RDD只有在引发异常并且作业被终止时才花费更长的时间才能处理。如果我再次运行该工作,我希望它继续失败,避免再次处理该RDD。只有当抛出异常时,Apache Spark RDD持久性

它有道理吗?相同的工作是否会启动不同的Spark上下文而无法找到缓存的RDD?

谢谢!

回答

1

当Spark程序退出时,缓存的数据将丢失。不过,检查点可能是一个选项,因为它会将RDD保存到磁盘。 Check here作进一步解释。

+0

感谢您的回答!检查点是一个强大的功能,但我认为它不适合我希望避免在失败后重新计算同一作业的场景。我相信检查点在成功完成作业后触发另一项工作,而在我的情况下,作业失败。 – djodar