在集群管理的多个演示文稿中(例如,1,2,3),调度程序的目标之一是通过将单个作业的任务分配到较少的计算节点来减少协调故障可能会一起失败。关联故障对集群性能的影响
为什么单个作业中任务的相关故障是不可取的?如果我理解正确,所有任务都需要在作业完成之前完成。所以乍一看,如果任务失败仅限于少量的工作,那么最好只有那些工作由于重新提交失败的任务而经历延迟。
我会理解,如果一份工作中的所有任务都是简单地复制相同的工作,但每个工作有数百个任务不能成为案例(可能有3-4个相同的任务用于容错目的,我确实明白为什么减少这些任务组的相关故障很重要)。