背景执行顺序流
我有一个火花流应用,从室壁运动读取数据 - >不就可以了窗口 - >将数据保存到外部系统(通过做foreachRDD )。
最近我观察到,我的窗户被foreachRDD一个接一个地占用。这意味着如果我的应用程序中有突然突发的数据(因此窗口的foreachRDD需要很长时间),那么窗口将在处理之前堆叠在队列中(而群集中的大多数计算机处于空闲状态)。
问题
这是一个语义火花流的是窗口正在处理一个接一个?如果是的话,是否有任何方法可以在spark中并行执行“窗口化”操作,以便窗口同时被foreachRDD使用?