2
我有这个DataFrame df
有3列:id
,type
和activity
。如何按列分组数据并计算每个组的观察次数
val myData = (Seq(("aa1", "GROUP_A", "10"),("aa1","GROUP_A", "12"),("aa2","GROUP_A", "hy"),("aa2", "GROUP_B", "14"),
("aa3","GROUP_B", "11"),("aa3","GROUP_B","12"),("aa2", "GROUP_3", "12"))
val df = sc.parallelize(myData).toDF()
我需要组数据由type
,然后计算对于每个id
活动数。这是预期的结果:
type id count
GROUP_A aa1 2
GROUP_A aa2 1
GROUP_B aa3 3
GROUP_B aa2 1
这是我的尝试:
df.groupBy("type","id").count().sort("count").show()
但是它没有给出正确的结果。
非常感谢。它应该是'toDF(“id”,“type”,“count”)'因为'aa..'是'id'。我来检查一下。 – Dinosaurius
编辑我的答案,这是它应该如何 –