0
我使用Pandas模块在PySpark中工作并获得了Pandas DataFrame。我想将它保存为s3中的特定存储区中的csv。如何将Pandas DataFrame保存到S3中
我尝试这样做,但它给了我一个IOError
result_df.to_csv("s3n://id:[email protected]_name/")
我怎样才能做到这一点?先谢谢你。
我使用Pandas模块在PySpark中工作并获得了Pandas DataFrame。我想将它保存为s3中的特定存储区中的csv。如何将Pandas DataFrame保存到S3中
我尝试这样做,但它给了我一个IOError
result_df.to_csv("s3n://id:[email protected]_name/")
我怎样才能做到这一点?先谢谢你。
您使用的是什么版本的Spark?
如果您使用1.4或更高版本,使用数据框作家和Databricks CSV格式写:
(result_df.write
.format("com.databricks.spark.csv").save("s3n://id:[email protected]_name/"))
大熊猫DataFrames不能直接保存到S3。只需使用由Joe Widen描述的Spark DataFrame和方法。 – zero323