2016-12-07 40 views
2

我想在Spark结构化数据流中执行多个聚合。Spark结构化数据流中的多个聚合

像这样:

  • 读取输入文件的流(从一个文件夹)
  • 执行聚合1(有一些变换)
  • 执行聚集2(和多个变换)

当我在结构化流式处理中运行它时,它给了我一个错误:“流式数据帧/数据集不支持多流式聚合”。

有没有办法在结构化流中做这样的多个聚合?

+0

您是否尝试过使用较低级别的'DStream'抽象? –

+0

我希望能够使用结构化流(数据集/数据框)。你能否指出一些与DStream类似的例子? – Kaptrain

回答

0

由于结构化流式API仍处于试验阶段,因此Spark 2.0中不支持此功能。请参阅here查看所有当前限制的列表。

+0

我正在检查。我想它会起作用。谢谢! – Kaptrain

+0

由于缺乏对结构化流媒体API的支持,现在看起来是这样。 – Kaptrain

4

这不支持,但也有其他方法。就像执行单个聚合并将其保存到kafka一样。从卡夫卡读取它并再次应用聚合。这对我有效。

相关问题