2017-08-24 55 views
1

我想数据帧保存到S3,但是当我将文件保存到S3,它会创建空文件与${folder_name},在我要保存文件。Pyspark保存数据帧到S3

语法来保存数据框: -

f.write.parquet("s3n://bucket-name/shri/test") 

它保存在测试文件夹中的文件,但它创造shri$test

有没有一种方法可以保存它而不创建额外的文件夹?

+0

为了写一个文件,你需要使用一个执行者,一个减速,这违背了星火的分布式特性 –

回答

0

据我所知,目前还没有办法控制的实际拼花文件的命名。当您将数据框写入parquet时,需要指定目录名称,并在该目录下创建适当的parquet文件。

2

我能够通过使用下面的代码来做到这一点。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite") 
+0

感谢乌斯曼对响应的目的,是否有这需从国外进口,因为任何模块,当我尝试相同的时候,我得到error.Traceback(最近调用最后一个): 文件“”,第1行,在 NameError:名称'覆盖'未定义 – Shrikant

+1

给出覆盖值的引号,即模式=“覆盖” –