0

我在AWS EC2上的七个m4.2xlarge Red Hat实例上部署了Hortonworkks数据平台(HDP2.4)。该群集具有Spark,并且我正在使用Spark通过与Tableau进行连接来查询。我被问及查询速度,我不知道如何估计查询速度。我应该考虑哪些因素,还是有直接了解火花集群查询速度的方法?火花集群的查询速度

回答

0

我正在做同样的分析。呈现tableau报告时速度似乎很慢。因此,为了分析速度,您需要查看将Tableau连接到Spark群集的日志。

在我们的案例中,它是Thrift Server 2,日志位于:/var/log/spark/spark-root-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-<<ip>>.out,您将在日志名称的末尾有一个IP地址。

当您查看日志时,您将看到INFO SparkExecuteStatementOperation: Running query和查询。对于仪表板执行的查询太多了。

你可以得到一个高层次的想法。如果您想深入分析,请查看EMR集群详细信息页面中的资源管理器中的Thrift Server阶段。在资源管理器中,您将能够看到正在用于查询的容器。

或者,您可以在Spark上执行相同的查询并运行它,并查看它的执行方式。