2016-10-31 31 views
4

我有一个火花流作业在1秒的批量生产中运行。我使用CDH 5.5 Spark 1.5。我们使用Kafka Create Directstream。我们启用了背压。我们不想要起诉动态分配所以执行工作与执行者的数量执行。突然增加火花流作业的计划延迟作业没有改变其他参数

below image我可以看出,这些是从13.50的调度延迟突然增加但在同一时间,我没有看到在处理时间的任何dealy。

  1. 当处理时间相同时,调度时间增加的原因是什么?
  2. 集群中的其他作业加载是否会影响当前的流式作业。在我的理解不应该是这样的,因为流的执行者已预先分配,并已运行

有什么想法?

enter image description here

+0

你能解决这个问题吗?我在Spark流应用程序中观察到一个非常类似的问题,它从Kafka读取其输入(使用DirectKafkaStream方法) – jithinpt

+0

我们没有为此提供特定的解决方案。使用批处理持续时间和执行程序内存和V核心解决了我们的问题。 –

回答

0

这的确是一个奇怪的问题在第一,但让我们得到了这一点Does other job loads in the cluster effect the current streaming job。答案是,如果另一个进程开始在同一个群集上运行,并且可能导致争用,那么您将看到等待的CPU共享将受到影响。你有没有在容器中运行火花?由于我不知道如何设置群集,因此也很难完全理解您的问题。

+0

我的集群是简单的CDH 5.5集群。所以火花正在Yarn上运行。我有专门的资源池创建火花任务。但是,其他火花批量作业是否共享相同的池 –