2016-05-12 65 views
0

我正在运行Spark Notebook以将DataFrame作为Parquet文件保存在Bluemix对​​象存储中。用Apache Spark笔记本覆盖Bluemix对​​象存储中的Parquet文件

重新运行笔记本时,我想覆盖Parquet文件。但实际上它只是附加数据。

下面IPython的代码示例:

df = sqlContext.sql("SELECT * FROM table") 
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite") 

回答

0

我不是蟒蛇的家伙,但对数据帧SaveMode工作这样

df.write.mode(SaveMode.Overwrite).parquet("swift://my-container.spark/simdata.parquet") 
+0

我试过 'df.write.mode(“覆盖”).parquet(“swift://my-container.spark/simdata.parquet”)' 如此处所述[Spark SQL Save Modes](http://spark.apache .org/docs/latest/sql-programming-guide.html#save-modes) 但它仍然附加:/ –

+0

你可以去你的4040端口,看看哪些工作正在运行 –

+0

我的意思是有任何可能在你的代码中首先写入数据并追加它。 –

0

我觉得blockstorage仅更换“SIMDATA .parquet''PART-0000 *'仍然是'simdata.parquet'与'UUID'的app-id,当你尝试阅读时,DF阅读所有文件'simdata.parquet *'

相关问题