为了提高性能(例如对于连接),建议首先计算表静态值。在蜂巢或黑斑羚中计算表格统计信息是否会加速apache的火花?
在蜂巢我可以做::
analyze table <table name> compute statistics;
在帕拉:
compute stats <table name>;
难道我的火花的应用程序(从蜂房表读数)也从预先计算的统计数据中受益?如果是的话,我需要运行哪一个?他们是否都将这些统计数据保存在蜂房的Metastore中?我使用Cloudera的火花1.6.1 5.5.4
注: 在火花1.6.1(https://spark.apache.org/docs/1.6.1/sql-programming-guide.html)为参数spark.sql.autoBroadcastJoinThreshold
的文档,我发现一个提示:
注意,目前的统计数据仅支持Hive Metastore 表,其中命令ANALYZE TABLE COMPUTE STATISTICS noscan已运行。