我正在运行Spark Notebook以将DataFrame作为Parquet文件保存在Bluemix对象存储中。用Apache Spark笔记本覆盖Bluemix对象存储中的Parquet文件
重新运行笔记本时,我想覆盖Parquet文件。但实际上它只是附加数据。
下面IPython的代码示例:
df = sqlContext.sql("SELECT * FROM table")
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite")
我试过 'df.write.mode(“覆盖”).parquet(“swift://my-container.spark/simdata.parquet”)' 如此处所述[Spark SQL Save Modes](http://spark.apache .org/docs/latest/sql-programming-guide.html#save-modes) 但它仍然附加:/ –
你可以去你的4040端口,看看哪些工作正在运行 –
我的意思是有任何可能在你的代码中首先写入数据并追加它。 –