我想数据帧保存到S3,但是当我将文件保存到S3,它会创建空文件与${folder_name}
,在我要保存文件。Pyspark保存数据帧到S3
语法来保存数据框: -
f.write.parquet("s3n://bucket-name/shri/test")
它保存在测试文件夹中的文件,但它创造shri
下$test
。
有没有一种方法可以保存它而不创建额外的文件夹?
我想数据帧保存到S3,但是当我将文件保存到S3,它会创建空文件与${folder_name}
,在我要保存文件。Pyspark保存数据帧到S3
语法来保存数据框: -
f.write.parquet("s3n://bucket-name/shri/test")
它保存在测试文件夹中的文件,但它创造shri
下$test
。
有没有一种方法可以保存它而不创建额外的文件夹?
据我所知,目前还没有办法控制的实际拼花文件的命名。当您将数据框写入parquet时,需要指定目录名称,并在该目录下创建适当的parquet文件。
我能够通过使用下面的代码来做到这一点。
df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")
感谢乌斯曼对响应的目的,是否有这需从国外进口,因为任何模块,当我尝试相同的时候,我得到error.Traceback(最近调用最后一个): 文件“
给出覆盖值的引号,即模式=“覆盖” –
我在堆栈上找到了一个类似的帖子,这里是链接。它已经回答了这个问题。
为了写一个文件,你需要使用一个执行者,一个减速,这违背了星火的分布式特性 –