0
我正在尝试使用Tachyon实现RDD/Dataframe共享。我的理解是,对于HDFS underFS,写入是异步的(在场景后面发生HDFS复制),因此速度应该更快,但在测试中我发现使用HDFS underFS的Tachyon在写入时速度较慢2-6倍。如何为Spark-Tachyon集成启用基于谱系的容错功能?
从this Tachyon paper我看到:
“我们做了[基于谱系容错]配置在我们的星火和MapReduce一体化”
如何启用星火使用谱系基于Tachyon容错?
注意:我使用Spark Dataframe方法df.write.parquet
和RDD方法rdd.saveAsObjectFile
将我的Dataframes/RDD保存到Tachyon。