2015-12-11 19 views
0

我正在尝试使用Tachyon实现RDD/Dataframe共享。我的理解是,对于HDFS underFS,写入是异步的(在场景后面发生HDFS复制),因此速度应该更快,但在测试中我发现使用HDFS underFS的Tachyon在写入时速度较慢2-6倍。如何为Spark-Tachyon集成启用基于谱系的容错功能?

this Tachyon paper我看到:

“我们做了[基于谱系容错]配置在我们的星火和MapReduce一体化”

如何启用星火使用谱系基于Tachyon容错?

注意:我使用Spark Dataframe方法df.write.parquet和RDD方法rdd.saveAsObjectFile将我的Dataframes/RDD保存到Tachyon。

回答

0

您应该设置tachyon.user.lineage.enabled为true,并根据您的喜好调整其他谱系设置。一些最有趣的设置(从​​):

  • tachyon.master.lineage.checkpoint.interval.ms - 超光速粒子的检查站调度的时间间隔(以毫秒为单位)。
  • tachyon.master.lineage.checkpoint.class - 沿袭输出文件的检查点策略的类名称。默认策略是检查点最近完成的血统,即输出文件完整的血统。
  • tachyon.master.lineage.recompute.interval.ms - Tachyon重新计算执行间隔(以毫秒为单位)。执行程序扫描沿袭追踪的所有丢失文件,并重新执行相应的作业。每10分钟一班。

查看Lineage API docs了解更多详情。

相关问题