我有一个关于在集群模式下在YARN上运行的Apache Spark的问题。根据this thread,Spark本身不必安装在群集中的每个(工作)节点上。我的问题在于Spark Executors:通常,YARN或者说资源管理器应该决定资源分配。因此,Spark Executors可以在群集中的任何(工作)节点上随机启动。但是,如果Spark没有安装在任何(worker)节点上,那么Spark如何由YARN启动呢?如果Spark(在YARN上)没有安装在worker节点上,Spark Executors是如何启动的?
回答
在高电平,当火花应用上YARN启动,
- 一个应用主站(火花特定)将在YARN容器的一个来创建。用于星火工人(遗嘱执行人)
星火司机
火花组装提供火花相关罐子运行 纱线集群与应用星火作业将有其自身功能相关 罐子。
编辑:(2017年1月4日)
火花2.0 不再需要用于生产 部署脂肪组件罐子。 source
感谢您的回答。我知道YARN容器。据我了解,一个执行者(实际上是一个进程)在“容器”中启动。但是,执行程序本身仍然是一个Spark特定组件。因此,我的问题是:如果Spark未安装在任何工作节点上,Spark Executors如何启动(在YARN容器中)? – h4wX
是的!执行程序是一个进程,所有的计算逻辑将通过spark驱动程序传递给它。其他jar如** spark-assembly **将在所有工作人员可用时通过在应用程序启动时将它们移动到HDFS(这是一个自动化过程)。 – mrsrinivas
是的,没错,但是在具体情况下这是如何工作的? – h4wX
- 1. 我们是否需要在所有数据节点上安装spark worker节点?
- 2. YARN上的Spark:执行没有worker的驱动程序
- 3. 如何使用纱线在cloudera上添加Spark worker节点
- 4. EMR群集上没有安装Spark
- 5. 在Yarn上运行Spark,如果我登录应用程序,它调度哪个节点,nodemanager或worker?
- 6. 在现有Hadoop集群上安装Spark
- 7. Yarn和spark-bigquery连接器上的Spark
- 8. 在Linux上安装Apache Spark
- 9. Spark Worker节点自动停止
- 10. 如何使用bash脚本快速在YARN上设置Spark上的Spark?
- 11. Spark/YARN - 并非所有节点都用于spark-submit
- 12. 如何在云企业上的BigInsights上安装用于Spark的Spark模块
- 13. YARN上的Spark日志在哪里?
- 14. Spark集群中Worker节点上对象的早期初始化
- 15. 无法在YARN上运行Spark 1.2
- 16. spark serverserver不能在集群中的多个节点上启动
- 17. 如何在现有Apache Spark独立群集上安装Apache Zeppelin
- 18. 如何在Mesos上运行Spark Spark shell?
- 19. Apache Spark在YARN上运行spark-shell错误
- 20. 在四台机器上安装Spark
- 21. Yarn上的Spark:在客户端检查驱动程序内存?
- 22. 无法在DCOS上安装Apache Spark
- 23. 强制YARN在所有从属设备上部署Spark任务
- 24. 在AWS EMR上运行Spark,如何在主节点上运行驱动程序?
- 25. 在Maven上构建Spark之后安装Spark
- 26. 在ubuntu上安装Apache spark for pyspark
- 27. 在YARN上运行时,Spark调度程序池如何工作?
- 28. 在windows 7上安装Apache Spark 32位
- 29. 在hadoop集群上安装spark集群
- 30. 在Windows 7上安装Apache Spark 64位
执行者需要以某种方式获得Spark运行时。这可以通过在节点上安装或将其与应用程序一起运输来实现,例如,在一个捆绑Spark的肥缸里。我认为... – LiMuBei
您不必将二进制文件包含在fatjar/uberjar中 - 它是由spark-submit自动提供的。 –