Q

pyspark：获得GROUPBY的第二个元素的尺寸上RDD

pyspark
rdd

2017-03-14 50 views 0 likes

0

我有我从输入创建一个类似以下内容的RDD：我做了GROUPBY像下面pyspark：获得GROUPBY的第二个元素的尺寸上RDD

：

rdd2 = rdd1.groupBy(lambda x: x[0])

现在RDD2会是这样的：

[(0,[1,2]),(1,[2,3])]

我的问题是，我怎么能得到与每个元素相关联的列表的大小？

感谢

2017-03-14 ahajib

A

回答

1

您可以使用mapValues和len：

rdd2.mapValues(list).mapValues(len)

2017-03-14 22:45:41 1d12dj02

相关问题