火花集群的查询速度

我在AWS EC2上的七个m4.2xlarge Red Hat实例上部署了Hortonworkks数据平台（HDP2.4）。该群集具有Spark，并且我正在使用Spark通过与Tableau进行连接来查询。我被问及查询速度，我不知道如何估计查询速度。我应该考虑哪些因素，还是有直接了解火花集群查询速度的方法？火花集群的查询速度

来源

2016-09-14 Fisseha Berhane

我正在做同样的分析。呈现tableau报告时速度似乎很慢。因此，为了分析速度，您需要查看将Tableau连接到Spark群集的日志。

在我们的案例中，它是Thrift Server 2，日志位于：/var/log/spark/spark-root-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-<<ip>>.out，您将在日志名称的末尾有一个IP地址。

当您查看日志时，您将看到INFO SparkExecuteStatementOperation: Running query和查询。对于仪表板执行的查询太多了。

你可以得到一个高层次的想法。如果您想深入分析，请查看EMR集群详细信息页面中的资源管理器中的Thrift Server阶段。在资源管理器中，您将能够看到正在用于查询的容器。

或者，您可以在Spark上执行相同的查询并运行它，并查看它的执行方式。

来源

2016-09-19 17:43:06

火花集群的查询速度

回答

相关问题