我从一个数据帧中阶保存在S3存储桶分区文件性能降低读取文件拼花与斯卡拉在星火
data_frame.write.mode("append").partitionBy("date").parquet("s3n://...")
当我读到这个分区的文件,我尝试很慢的表现,我只是在做一个简单的组由
val load_df = sqlContext.read.parquet(s"s3n://...").cache()
我也尝试 load_df.registerTempTable("dataframe")
任何意见,我做错了什么?
我相信append可以生成很多文件和目录,你能避免它吗? –