1

在集群管理的多个演示文稿中(例如,1,2,3),调度程序的目标之一是通过将单个作业的任务分配到较少的计算节点来减少协调故障可能会一起失败。关联故障对集群性能的影响

为什么单个作业中任务的相关故障是不可取的?如果我理解正确,所有任务都需要在作业完成之前完成。所以乍一看,如果任务失败仅限于少量的工作,那么最好只有那些工作由于重新提交失败的任务而经历延迟。

我会理解,如果一份工作中的所有任务都是简单地复制相同的工作,但每个工作有数百个任务不能成为案例(可能有3-4个相同的任务用于容错目的,我确实明白为什么减少这些任务组的相关故障很重要)。

回答

0

我想清楚我错过了什么。我以某种方式想到了一项工作,它将静态工作分配到一组预定的任务中。实际上,在集群管理的情况下,工作是动态地在任务之间分配的。因此,任务就像工作人员:他们向负载平衡器公布其可用性,然后动态分配一些工作部分。

有了这个澄清,一切都很明显。

如果任务失败,则负载平衡器将简单地将相应的工作重新分配给其他任务,但工作性能度量略有恶化(批处理作业时的完成时间;服务作业情况下的等待时间)。但是,如果单一工作中的任务失败太多,工作绩效将受到太大影响。这正是为什么相关故障不可取的原因。