只有当抛出异常时，Apache Spark RDD持久性

我正在考虑缓存一个RDD，这些RDD只有在引发异常并且作业被终止时才花费更长的时间才能处理。如果我再次运行该工作，我希望它继续失败，避免再次处理该RDD。只有当抛出异常时，Apache Spark RDD持久性

它有道理吗？相同的工作是否会启动不同的Spark上下文而无法找到缓存的RDD？

谢谢！

2016-04-21 djodar

当Spark程序退出时，缓存的数据将丢失。不过，检查点可能是一个选项，因为它会将RDD保存到磁盘。 Check here作进一步解释。

2016-04-21 16:35:00 David

感谢您的回答！检查点是一个强大的功能，但我认为它不适合我希望避免在失败后重新计算同一作业的场景。我相信检查点在成功完成作业后触发另一项工作，而在我的情况下，作业失败。 – djodar

回答