2016-12-05 88 views
-4

我读蜂房表,做一个简单的sum(field1)上表中的字段之一,然后通过做.show()星火优化

表有近1200万行,它正在采取18secs运行执行播放功能在YARN工作。在SQL Server上,相同的功能需要少于10秒。

关于如何优化Spark上查询的想法?

+0

您是否将Spark应用程序提交给YARN群集? – 030

回答

0

基于对这个问题的信息很难告诉查询是否可以优化:

  1. 也许SQL服务器上比星火查询硬件强运行。
  2. 也许在代码中存在问题。由于代码未添加到问题中,因此无法确定是否属于这种情况。

据将由Sams的Apache Spark在24小时,第24章的火花性能取决于以下几个因素:

  1. 上系统上运行的应用程序的Spark本身应该是 基准和金丝雀查询应该是执行
  2. 的Spark代码
  3. 火花配置
  4. 优化分区
  5. 通过检查UI诊断应用程序性能问题