2015-12-03 57 views
1

我设置一个Hortonworks Hadoop集群:如何估算Hortonworks Hadoop集群上的火花执行器数量?

  • Hortonworks版本2.3.2。
  • 1 NameNode,1 Secondary NameNode,10 DataNode
  • Spark 1.4.1并部署在所有数据节点上。
  • YARN已安装。

当我运行一个spark程序时,执行程序仅在4个节点上运行,但不是在整个数据节点上运行。

如何估算这种Hadoop集群上的火花执行器数量?

回答

0

默认情况下,您请求的执行程序数量为4.如果要请求更多,则必须使用命令行中的参数--num-executors = x或在配置中设置spark.executors.instances。更多详细信息,请参见: https://spark.apache.org/docs/latest/running-on-yarn.html

因为Spark是使用YARN在Hortonworks Hadoop上运行的,所以每个Spark客户端都应该部署YARN /节点管理器,YARN客户端。否则,火花客户端将不会被安排。

实际执行者与节点管理器和num-executors的最小数目有关。