如何为Spark-Tachyon集成启用基于谱系的容错功能？

我正在尝试使用Tachyon实现RDD/Dataframe共享。我的理解是，对于HDFS underFS，写入是异步的（在场景后面发生HDFS复制），因此速度应该更快，但在测试中我发现使用HDFS underFS的Tachyon在写入时速度较慢2-6倍。如何为Spark-Tachyon集成启用基于谱系的容错功能？

从this Tachyon paper我看到：

“我们做了[基于谱系容错]配置在我们的星火和MapReduce一体化”

如何启用星火使用谱系基于Tachyon容错？

注意：我使用Spark Dataframe方法df.write.parquet和RDD方法rdd.saveAsObjectFile将我的Dataframes/RDD保存到Tachyon。

来源

2015-12-11 Shane Kinsella

您应该设置tachyon.user.lineage.enabled为true，并根据您的喜好调整其他谱系设置。一些最有趣的设置（从）：

tachyon.master.lineage.checkpoint.interval.ms - 超光速粒子的检查站调度的时间间隔（以毫秒为单位）。

tachyon.master.lineage.checkpoint.class - 沿袭输出文件的检查点策略的类名称。默认策略是检查点最近完成的血统，即输出文件完整的血统。

tachyon.master.lineage.recompute.interval.ms - Tachyon重新计算执行间隔（以毫秒为单位）。执行程序扫描沿袭追踪的所有丢失文件，并重新执行相应的作业。每10分钟一班。

查看Lineage API docs了解更多详情。

来源

2015-12-11 14:17:54 zero323

如何为Spark-Tachyon集成启用基于谱系的容错功能？

回答

相关问题