2017-02-09 42 views
0

我必须根据resultdate字段的格式2/5/2013 9:24:00 AM根据日期和小时分区表。如何使用动态分区优化表上的Hive查询

我使用了日期&小时动态分区和做一个

insert overwrite table partition(date, hour) 
{ 
select x,y,z, date , hour 
} 
from table 1. 

我有大约150万的记录,并且它正在约4小时完成。这是正常的,有什么方法可以优化?

回答

0

增加簇大小,否则将需要很多时间。

0

这是不正常的,但如果你是在一个虚拟机有1个节点工作:) ..尝试它为什么在一些设置为true默认设置该标志

set hive.optimize.sort.dynamic.partition=false; 

我不知道发行版。

0

有许多情况下这一点,TEZ引擎

  • 检查是否可以用来使你的执行时间更好。
  • 我们存储文件的方式是否可以更改,RC格式可能会有所帮助。
  • 优化hive.exec.max.dynamic.partitions & hive.exec.max.dynamic.partitions为最佳值。
  • 增加簇也很好(如果可行)