0
我有我从输入创建一个类似以下内容的RDD:我做了GROUPBY像下面pyspark:获得GROUPBY的第二个元素的尺寸上RDD
0 1
0 2
1 2
1 3
:
rdd2 = rdd1.groupBy(lambda x: x[0])
现在RDD2会是这样的:
[(0,[1,2]),(1,[2,3])]
我的问题是,我怎么能得到与每个元素相关联的列表的大小?
感谢
我有我从输入创建一个类似以下内容的RDD:我做了GROUPBY像下面pyspark:获得GROUPBY的第二个元素的尺寸上RDD
0 1
0 2
1 2
1 3
:
rdd2 = rdd1.groupBy(lambda x: x[0])
现在RDD2会是这样的:
[(0,[1,2]),(1,[2,3])]
我的问题是,我怎么能得到与每个元素相关联的列表的大小?
感谢
您可以使用mapValues
和len
:
rdd2.mapValues(list).mapValues(len)