Spark避免分区覆盖

我正在编写一个Spark应用程序，将日志数据保存到目录/logroot。Spark避免分区覆盖

我的代码是

myDF.mode('overwrite').partitionBy('date','site').save('logroot')

我想用overwrite模式，以重新处理很多次，每周所有的日常数据。

我担心的是overwrite会清除所有logroot目录，而不仅仅是涉及的分区。

我该如何解决这个问题？

2016-06-07 Roberto G.

您可以使用追加模式并避免重写。但你可以更详细说明，你的要求是什么 – Ramzy

嗨，我已经尝试过追加模式，问题是，如果出于任何原因，我需要重新处理已存在数据的一天（日期+网站分区）数据总和而不是覆盖。 –

你可以请更详细一点。你想重新处理输出数据吗？ – Ramzy

在撰写的最佳解决方案目前看来：从最初的数据帧

感谢大家的帮助和希望星火家伙将提供更优雅的解决方案选项。

Roberto

2016-07-14 09:45:49

回答