2017-10-09 50 views
0

我已经在具有4个分区的Kafka主题上部署了一个包含4名工作人员的结构化流。解释Spark结构化流处理执行程序与Kafka分区之间的映射

我假设将会有4个工作人员部署到4个分区,在工作人员< - >分区之间有一对一的映射。

但是,事实并非如此。所有分区都由同一个Executor提供服务。我通过检查线程ID并登录执行程序来确认这一点。

是否有任何文件显示卡夫卡分区和Spark结构化流之间的相关性。另外,有没有我们可以调整的旋钮。

回答

0

如果您使用的是DirectStream API,则相关性为1:1(sparkcore:分区)。从spark streaming guide

星火流集成卡夫卡0.10在设计上 0.8直接流的方法类似。它提供了简单的并行性,卡夫卡分区和Spark分区之间的对应关系,以及 访问偏移量和元数据

+0

感谢Vignesh。但是,我希望挖掘结构化流式处理方法。这与Structured Streaming一样吗? –

+1

结构化流媒体和老火花流媒体之间的本质区别在于,您可以在火花流媒体中获得DStream,并且可以在结构化流媒体中获得流媒体数据帧。 1:1的并行性保持不变。 –

相关问题