2015-04-16 76 views

回答

1

如果主人在过去的60秒内未收到心跳消息(根据spark.worker.timeout),则认为该工人失败。在这种情况下,分区被分配给另一名工作人员(记住,分区RDD即使丢失也可以重建)。

对于新节点是否引入群集的问题?一旦从机启动,spark-master将不会检测到群集中的新节点,因为在应用程序提交群集之前,sbin/start-master.sh启动主机,sbin/start-slaves.sh读取spark-master中的conf/slaves文件(包含所有从机​​的IP地址)并在每台指定的机器上启动一个从机实例。 spark-master在启动后不会读这个配置文件。所以一旦所有的从站启动,就不可能添加新的节点。

+0

感谢您对Arnav的回应。 –

+0

快速跟进qs。如果只有在Worker上,并且它在处理分区的过程中崩溃,Spark是否会失败整个作业?因为,现在没有工人重新分配该分区。 –

+0

我找不到'spark.worker.timeout'配置。相反,我发现'spark.akka.heartbeat.interval(1000sec)','spark.akka.timeout(100sec)','spark.network.timeout(120sec)'听起来像至少需要2分钟,至少节点在重新分配前死亡会发生。 –

相关问题