2014-03-03 84 views
1

我调用蜂巢-e数百次在命令行中这样说:减少蜂巢启动时间为许多蜂巢-e调用

cat hive_script.hql | parallel --gnu hive -e '{}' 

其中hive_script.hql每行可以独立运行,并在任何订购。

是否有任何--hiveconf参数可以减少启动时间? Apache的网页似乎表明有可能是在

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+VariableSubstitution

"This is frustrating as Hive becomes closely coupled with scripting languages. The Hive startup time of a couple seconds is non-trivial when doing thousands of manipulations such as multiple hive -e invocations." 

回答

0

你不能加快蜂巢-e起来,但你可以把多个查询在一个脚本中。

如果这不起作用,您需要查看HiveServer2并调用JDBC客户端的查询。

+0

我的目标是让多个应用程序同时运行,我发现使用gnu并行给了我一个脚本的大加速。您能否直接提交多个作业以同时从emr主节点上运行的jdbc客户端运行? –