解释Spark结构化流处理执行程序与Kafka分区之间的映射

我已经在具有4个分区的Kafka主题上部署了一个包含4名工作人员的结构化流。解释Spark结构化流处理执行程序与Kafka分区之间的映射

我假设将会有4个工作人员部署到4个分区，在工作人员< - >分区之间有一对一的映射。

但是，事实并非如此。所有分区都由同一个Executor提供服务。我通过检查线程ID并登录执行程序来确认这一点。

是否有任何文件显示卡夫卡分区和Spark结构化流之间的相关性。另外，有没有我们可以调整的旋钮。

如果您使用的是DirectStream API，则相关性为1：1（sparkcore：分区）。从spark streaming guide，

星火流集成卡夫卡0.10在设计上 0.8直接流的方法类似。它提供了简单的并行性，卡夫卡分区和Spark分区之间的对应关系，以及访问偏移量和元数据

2017-10-09 07:21:24

感谢Vignesh。但是，我希望挖掘结构化流式处理方法。这与Structured Streaming一样吗？ –

结构化流媒体和老火花流媒体之间的本质区别在于，您可以在火花流媒体中获得DStream，并且可以在结构化流媒体中获得流媒体数据帧。 1：1的并行性保持不变。 –

回答