Q
火花流聚合
-2
A
回答
1
您可以将JSON放入数据框/数据集并执行以下聚合操作。
- GROUPBY
- groupByKey
- 汇总
- 立方体
火花SQL可自动推断JSON数据集的模式和装载它作为一个数据集[行]。此转换可以使用String的RDD或JSON文件上的SparkSession.read.json()完成。
val json_path = "dir/example.json"
val jsonDF = spark.read.json(json_path)
jsonDF.groupBy("col1").count().show()
+0
感谢@Arvind ..这对我的作品......现在还有另外一个挑战。我希望在整个批处理时间间隔内有一个特定数字字段的平均值,但该时间窗口中的数据会被分成多个RDD。而且我可以通过foreachRDD完成所有这些计算。有没有办法将所有RDDs应用到一起? –
+1
您可以合并所有RDD或数据框,将其注册为临时表并执行SQL以执行聚合操作。 –
相关问题
- 1. 卡夫卡火花流多个聚合
- 2. 火花流整合水槽
- 3. 应用聚合函数与火花流scala
- 4. 聚结在火花
- 5. 蟒蛇火花聚合函数
- 6. 没有聚合的火花转轴
- 7. 火花数据帧聚合阶
- 8. 火花定制聚合> = 2.0(阶)
- 9. 火花流
- 10. 火花流update_state_by_keys
- 11. 火花流
- 12. 卡夫卡火花流媒体整合
- 13. 火花:聚集基于列
- 14. 使用火花流
- 15. 使用火花流
- 16. 火花流文件流
- 17. 火花流HBase的错误
- 18. 火花流不工作
- 19. “java.io.NotSerializableException:org.apache.spark.streaming.StreamingContext”当执行火花流
- 20. 火花流+卡桑德拉
- 21. 什么是在火花流
- 22. 蟒蛇火花流输出
- 23. jsontostructs在火花结构流
- 24. 学习火花流媒体
- 25. 火花流微配料
- 26. EMR和S3源火花流
- 27. 卡夫卡+火花流:kafka.common.OffsetOutOfRangeException
- 28. 试图了解火花流流
- 29. 火花SQL - 聚合数据帧到一系列
- 30. 从聚合后的火花表中读取和写入
http://spark.apache.org/docs/latest/streaming-programming-guide.html – maasg