如何将Pandas DataFrame保存到S3中

我使用Pandas模块在PySpark中工作并获得了Pandas DataFrame。我想将它保存为s3中的特定存储区中的csv。如何将Pandas DataFrame保存到S3中

我尝试这样做，但它给了我一个IOError

result_df.to_csv("s3n://id:[email protected]_name/")

我怎样才能做到这一点？先谢谢你。

大熊猫DataFrames不能直接保存到S3。只需使用由Joe Widen描述的Spark DataFrame和方法。 – zero323

您使用的是什么版本的Spark？

如果您使用1.4或更高版本，使用数据框作家和Databricks CSV格式写：

(result_df.write 
    .format("com.databricks.spark.csv").save("s3n://id:[email protected]_name/"))

2015-12-21 17:41:57

回答