我想在Spark结构化数据流中执行多个聚合。Spark结构化数据流中的多个聚合
像这样:
- 读取输入文件的流(从一个文件夹)
- 执行聚合1(有一些变换)
- 执行聚集2(和多个变换)
当我在结构化流式处理中运行它时,它给了我一个错误:“流式数据帧/数据集不支持多流式聚合”。
有没有办法在结构化流中做这样的多个聚合?
我想在Spark结构化数据流中执行多个聚合。Spark结构化数据流中的多个聚合
像这样:
当我在结构化流式处理中运行它时,它给了我一个错误:“流式数据帧/数据集不支持多流式聚合”。
有没有办法在结构化流中做这样的多个聚合?
这不支持,但也有其他方法。就像执行单个聚合并将其保存到kafka一样。从卡夫卡读取它并再次应用聚合。这对我有效。
您是否尝试过使用较低级别的'DStream'抽象? –
我希望能够使用结构化流(数据集/数据框)。你能否指出一些与DStream类似的例子? – Kaptrain