0
如何在订购操作后返回RDD。我想按一个值排序,获得最高结果并按第二个值排序。Pyspark在排序后返回RDD
例如,
rdd = sc.parallelize([(1, "a", 10), (2, "b", 9), (3, "c", 8)])
res = rdd.takeOrdered(2, lambda x: x[0]) # sort on first value
# sort on second value
out = sc.parallelize(res).sortBy(lambda x: x[2]).collect()
但是我可以有res
是RDD并做一步到位?喜欢的东西
rdd.takeOrdered(2, lambda x: x[0])\
.sortBy(lambda x: x[2])
啊,'zipWithIndex'适用于我想要做的事情。 Thankyou – jenesaisquoi
不客气。很高兴帮助! – Psidom