性能降低读取文件拼花与斯卡拉在星火

我从一个数据帧中阶保存在S3存储桶分区文件性能降低读取文件拼花与斯卡拉在星火

data_frame.write.mode("append").partitionBy("date").parquet("s3n://...")

当我读到这个分区的文件，我尝试很慢的表现，我只是在做一个简单的组由

val load_df = sqlContext.read.parquet(s"s3n://...").cache()

我也尝试 load_df.registerTempTable("dataframe")

任何意见，我做错了什么？

我相信append可以生成很多文件和目录，你能避免它吗？ –

这取决于你的意思是“非常慢的表现”。

如果您的文件太多date分区需要一些时间来阅读这些文件。

尽量减少分区的粒度。

2016-05-24 23:31:49 slovit

你应该使用S3A驱动程序（可能就像将你的url协议改为s3a：//，或者你可能需要一些额外的类路径来让hadoop-aws和aws-sdk jars）到有更好的表现。

2016-05-25 13:28:30 C4stor

回答