2016-05-24 28 views
1

我从一个数据帧中阶保存在S3存储桶分区文件性能降低读取文件拼花与斯卡拉在星火

data_frame.write.mode("append").partitionBy("date").parquet("s3n://...")

当我读到这个分区的文件,我尝试很慢的表现,我只是在做一个简单的组由

val load_df = sqlContext.read.parquet(s"s3n://...").cache()

我也尝试 load_df.registerTempTable("dataframe")

任何意见,我做错了什么?

+0

我相信append可以生成很多文件和目录,你能避免它吗? –

回答

3

这取决于你的意思是“非常慢的表现”。

如果您的文件太多date分区需要一些时间来阅读这些文件。

尽量减少分区的粒度。

0

你应该使用S3A驱动程序(可能就像将你的url协议改为s3a://,或者你可能需要一些额外的类路径来让hadoop-aws和aws-sdk jars)到有更好的表现。