0
我已经以这种格式分区存储在S3中的数据。如何提高从雅典娜s3数据的查询性能
bucket/year=2017/month=3/date=1/filename.json
bucket/year=2017/month=3/date=2/filename1.json
bucket/year=2017/month=3/date=3/filename2.json
每个分区都有大约1,000,000条记录。我在雅典娜为此创建了表格和分区。
现在从雅典娜
select count(*) from mts_data_1 where year='2017' and month='3' and date='1'
运行的查询此查询正在1800秒扫描1,000,000记录时,。
所以我的问题是如何改善这种查询性能?
什么是分区列的定义? –
PARTITIONED BY(年份字符串,月份字符串,日期字符串) – Shailendra
Athena在该查询中扫描了多少个文件和字节的数据? – James