2016-02-05 39 views
0

我们试图通过Spark SQL连接在画面中生成报告,但是我发现我们最终连接到配置单元元存储。连接到画面中的火花数据帧

如果是这种情况,这种新的Spark SQL连接的优点是什么。有没有办法通过使用spark SQL的tableau连接来激发持久化的数据框架。

回答

2

这里的问题是Tableau问题,而不是Spark问题。每次连接到数据库时,Spark SQL Connector都会启动一个Spark作业。 Spark作业的一部分将底层Hive表加载到Spark管理的分布式内存中,并且每次在图上进行更改或选择时,刷新都必须更深入Hive Metastore以通过Spark获取数据。 Tableau的设计就是这样。此处唯一的选择是通过预先缓存底层Hive表更改Tableau for Spotfire(或其他工具),Spark SQL Connector可以直接从Spark分布式内存查询它,从而跳过装入步骤。 披露:我与Spotfire制造商没有任何关系