的Python:
sc.parallelize([['Chris',29,110],['Bob',28,104],['Bob',25,102],['Adam',22,100]]).groupBy(lambda x: x[0]).sortByKey().flatMap(lambda x: list(x[1])).collect()
[[ '亚当',22,100],[ '鲍勃',25,102],[ '鲍勃',28,104],[ '克里斯',29,110]]
斯卡拉:
sc.parallelize(List(Array("Chris",29,110),Array("Bob",28,104),Array("Bob",25,102),Array("Adam",22,100))).groupBy(x => x(0).asInstanceOf[String]).sortByKey().flatMap(x=> x._2).collect()
数组[数组[不限] =阵列(阵列(亚当,22,100),阵列(鲍勃,28,104),阵列(鲍勃,25,102),阵列(克里斯,29,110))
你可能想把其他列一个如果你想将它们包含在你的分类标准中,那么它就是你的密钥的一部分。所以在上面的例子中,第二列的Bob排序不会在那里。
请添加您的代码,以便于您的帮助。 – ale64bit