2017-04-06 15 views
0

我想知道工作人员多长时间一次检查师父的活力?或者是主人(资源经理)是否会让工人检查他们的活力,以及是否有工人死于产卵?还是两者兼而有之?在师父死后回来的时候Spark Worker没有加入Master

一些信息: 独立集群 1个主 - 8core 12GB 32名工人 - 每8个内核和8 GB

我的主要问题 - 在这里发生了什么事:

主设备M - 与32名工人 运行工人1和2在03:55:00死亡 - 所以现在群集是30名工人

工人1'在03:55:12.000上午 - 连接到M 工人2'在03:55出现:16.000 AM - 它连接到M

主设备M去世,享年03:56.00 AM 新的主NM和2' ”在上午3点56分三十秒 工人1' 出现 - 不要连接到NM 其余30名工人连接到海里。

因此NM现在有30名工人。

我想知道为什么这两个人不会连接到新的主NM,即使主M已经死了肯定。

PS:我为Master设置了一个LB设置,这意味着只要有新的主设备进入LB,就会开始指向新设备。

回答

1

负载均衡器无法解决您的问题。要让Spark工作人员识别新的主设备,您必须在高可用性模式下配置Spark。 Spark独立支持两种HA配置:

  • ZooKeeper的备用主设备。
  • 使用文件系统进行节点恢复。

后一种解决方案要简单得多,但需要一个可靠的分布式文件系统来存储spark.deploy.recoveryDirectory,除非您在同一节点上恢复主节点。

恢复模式可以使用spark.deploy.recoveryMode属性(NONEby default)应分别设置为ZOOKEEPERFILESYSTEM待机和恢复节点进行配置。

更多详细资料请参阅High Availability文件。

相关:What happens when Spark master fails?

相关问题