2
火花任务包含多个阶段的集合...火花 - 为什么火花工作持续时间不等于每个阶段持续时间的总和?
我在期待任务的执行持续时间与每个阶段的持续时间的总和相等或至少相似。
但是,我得到一个巨大的差异:1,3分3,2 X秒
是正常/可以接受的?
火花任务包含多个阶段的集合...火花 - 为什么火花工作持续时间不等于每个阶段持续时间的总和?
我在期待任务的执行持续时间与每个阶段的持续时间的总和相等或至少相似。
但是,我得到一个巨大的差异:1,3分3,2 X秒
是正常/可以接受的?
总之,作业执行时间是挂钟时间
这意味着时间仍然是测量,而阶段实际上并没有计算,集群可能是忙着做的之间的任何东西你的工作的各个阶段
这也可能工作在相反的方向:虽然多个阶段并行执行,阶段执行时间的总和可能会大于作业执行时间。
如果数据库读取操作位于spark任务中,是获取计算的所有数据还是不在阶段持续时间中所需的时间? – guilhermecgs