我有一个火花流作业在1秒的批量生产中运行。我使用CDH 5.5 Spark 1.5。我们使用Kafka Create Directstream。我们启用了背压。我们不想要起诉动态分配所以执行工作与执行者的数量执行。突然增加火花流作业的计划延迟作业没有改变其他参数
从below image我可以看出,这些是从13.50的调度延迟突然增加但在同一时间,我没有看到在处理时间的任何dealy。
- 当处理时间相同时,调度时间增加的原因是什么?
- 集群中的其他作业加载是否会影响当前的流式作业。在我的理解不应该是这样的,因为流的执行者已预先分配,并已运行
有什么想法?
你能解决这个问题吗?我在Spark流应用程序中观察到一个非常类似的问题,它从Kafka读取其输入(使用DirectKafkaStream方法) – jithinpt
我们没有为此提供特定的解决方案。使用批处理持续时间和执行程序内存和V核心解决了我们的问题。 –