用Apache Spark笔记本覆盖Bluemix对象存储中的Parquet文件

我正在运行Spark Notebook以将DataFrame作为Parquet文件保存在Bluemix对象存储中。用Apache Spark笔记本覆盖Bluemix对象存储中的Parquet文件

重新运行笔记本时，我想覆盖Parquet文件。但实际上它只是附加数据。

下面IPython的代码示例：

df = sqlContext.sql("SELECT * FROM table") 
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite")

来源

2016-05-12 C Heyer

我不是蟒蛇的家伙，但对数据帧SaveMode工作这样

df.write.mode(SaveMode.Overwrite).parquet("swift://my-container.spark/simdata.parquet")

来源

2016-05-12 13:08:43

我试过 'df.write.mode（“覆盖”）.parquet（“swift：//my-container.spark/simdata.parquet”）' 如此处所述[Spark SQL Save Modes]（http：//spark.apache .org/docs/latest/sql-programming-guide.html＃save-modes）但它仍然附加：/ –

你可以去你的4040端口，看看哪些工作正在运行 –

我的意思是有任何可能在你的代码中首先写入数据并追加它。 –

我觉得blockstorage仅更换“SIMDATA .parquet''PART-0000 *'仍然是'simdata.parquet'与'UUID'的app-id，当你尝试阅读时，DF阅读所有文件'simdata.parquet *'

来源

2016-09-09 13:33:04 dannyeuu

用Apache Spark笔记本覆盖Bluemix对​​象存储中的Parquet文件

回答

相关问题

用Apache Spark笔记本覆盖Bluemix对象存储中的Parquet文件