Pyspark保存数据帧到S3

我想数据帧保存到S3，但是当我将文件保存到S3，它会创建空文件与${folder_name}，在我要保存文件。Pyspark保存数据帧到S3

语法来保存数据框： -

f.write.parquet("s3n://bucket-name/shri/test")

它保存在测试文件夹中的文件，但它创造shri下$test。

有没有一种方法可以保存它而不创建额外的文件夹？

2017-08-24 Shrikant

为了写一个文件，你需要使用一个执行者，一个减速，这违背了星火的分布式特性 –

据我所知，目前还没有办法控制的实际拼花文件的命名。当您将数据框写入parquet时，需要指定目录名称，并在该目录下创建适当的parquet文件。

2017-08-24 19:40:22

我能够通过使用下面的代码来做到这一点。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")

2017-08-25 02:54:54

感谢乌斯曼对响应的目的，是否有这需从国外进口，因为任何模块，当我尝试相同的时候，我得到error.Traceback（最近调用最后一个）：文件“”，第1行，在 NameError：名称'覆盖'未定义 – Shrikant

给出覆盖值的引号，即模式=“覆盖” –

我在堆栈上找到了一个类似的帖子，这里是链接。它已经回答了这个问题。

2017-08-28 18:17:21 Shrikant

回答