举一个蜂房表1000组的列:从1000列的Hive表执行groupby 2属性的建议方式是什么?
col1, col2, ..., col1000
源表包含数十亿行的,并且尺寸为约1PB。
我只需要查询3列,
select col1, col2, sum(col3) as col3
from myTable
group by
col1, col2
它是否将建议先做一个子查询,然后将其发送到组由聚集,所以,我们有很多小的文件发送到GROUPBY ?不确定它Hive会自动处理这个问题。
select col1, col2, sum(col3) as col3
from
(select col1, col2, col3
from myTable
) a
group by
col1, col2