2
我有一个非常大的pyspark数据框。所以我想对它的子集进行预处理,然后将它们存储到hdfs。后来我想阅读所有这些内容并合并在一起。谢谢。如何将pyspark数据框写入HDFS,然后如何将其读回数据框?
我有一个非常大的pyspark数据框。所以我想对它的子集进行预处理,然后将它们存储到hdfs。后来我想阅读所有这些内容并合并在一起。谢谢。如何将pyspark数据框写入HDFS,然后如何将其读回数据框?
将DataFrame写入HDFS(Spark 1.6)。
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
一些的格式选项是从HDFS(火花1.6)csv
,parquet
,json
等
读取数据帧。
sqlContext.read.format('parquet').load('/path/to/file')
格式方法采用参数如parquet
,csv
,json
等
嘿我得到attributError:DataFrameWriter '对象没有属性' CSV。 此外,我需要阅读那个数据框,那是我认为在新的火花会议。 – Ajg
你的火花装置的版本是什么? –
火花版本1.6.1 – Ajg