2016-06-07 165 views
0

我正在编写一个Spark应用程序,将日志数据保存到目录/logrootSpark避免分区覆盖

我的代码是

myDF.mode('overwrite').partitionBy('date','site').save('logroot') 

我想用overwrite模式,以重新处理很多次,每周所有的日常数据。

我担心的是overwrite会清除所有logroot目录,而不仅仅是涉及的分区。

我该如何解决这个问题?

+0

您可以使用追加模式并避免重写。但你可以更详细说明,你的要求是什么 – Ramzy

+0

嗨,我已经尝试过追加模式,问题是,如果出于任何原因,我需要重新处理已存在数据的一天(日期+网站分区)数据总和而不是覆盖。 –

+0

你可以请更详细一点。你想重新处理输出数据吗? – Ramzy

回答

0

在撰写的最佳解决方案目前看来:从最初的数据帧

  • 提取物,应进行清洗
  • 清洁这些使用
  • 保存数据框使用append mode Hadoop的FS API分区的分区名称

感谢大家的帮助和希望星火家伙将提供更优雅的解决方案选项。

Roberto