1
我使用星火1.6.1遍历在Java中星火数据帧不收集
我有一个数据帧,我需要遍历每行写卡夫卡。截至目前,我做这样的事情:
Producer<String><String> message;
for(Row x: my_df.collect()){
kafka_message = new Producer<String><String>(topic, String.valueOf(x))
my_kafka_producer.send(kafka_message);
}
这里的问题是,收集的数据发送到驱动程序然后推到卡夫卡。考虑到我大约有250个执行者,我的驱动程序无法高效地处理工作负载。所以,我想知道如何通过执行器上的数据框进行迭代。这将需要避免执行collect()。我找到了一篇粗略解释如何做的文章,但不幸的是,他们与GitHub的链接实际上已过期,所以我找不到如何实现它。