我必须根据resultdate
字段的格式2/5/2013 9:24:00 AM
根据日期和小时分区表。如何使用动态分区优化表上的Hive查询
我使用了日期&小时动态分区和做一个
insert overwrite table partition(date, hour)
{
select x,y,z, date , hour
}
from table 1.
我有大约150万的记录,并且它正在约4小时完成。这是正常的,有什么方法可以优化?
我必须根据resultdate
字段的格式2/5/2013 9:24:00 AM
根据日期和小时分区表。如何使用动态分区优化表上的Hive查询
我使用了日期&小时动态分区和做一个
insert overwrite table partition(date, hour)
{
select x,y,z, date , hour
}
from table 1.
我有大约150万的记录,并且它正在约4小时完成。这是正常的,有什么方法可以优化?
增加簇大小,否则将需要很多时间。
这是不正常的,但如果你是在一个虚拟机有1个节点工作:) ..尝试它为什么在一些设置为true默认设置该标志
set hive.optimize.sort.dynamic.partition=false;
我不知道发行版。
有许多情况下这一点,TEZ引擎