0
我已经在具有4个分区的Kafka主题上部署了一个包含4名工作人员的结构化流。解释Spark结构化流处理执行程序与Kafka分区之间的映射
我假设将会有4个工作人员部署到4个分区,在工作人员< - >分区之间有一对一的映射。
但是,事实并非如此。所有分区都由同一个Executor提供服务。我通过检查线程ID并登录执行程序来确认这一点。
是否有任何文件显示卡夫卡分区和Spark结构化流之间的相关性。另外,有没有我们可以调整的旋钮。
感谢Vignesh。但是,我希望挖掘结构化流式处理方法。这与Structured Streaming一样吗? –
结构化流媒体和老火花流媒体之间的本质区别在于,您可以在火花流媒体中获得DStream,并且可以在结构化流媒体中获得流媒体数据帧。 1:1的并行性保持不变。 –