2017-03-14 50 views
0

我有我从输入创建一个类似以下内容的RDD:我做了GROUPBY像下面pyspark:获得GROUPBY的第二个元素的尺寸上RDD

0 1 
0 2 
1 2 
1 3 

rdd2 = rdd1.groupBy(lambda x: x[0]) 

现在RDD2会是这样的:

[(0,[1,2]),(1,[2,3])] 

我的问题是,我怎么能得到与每个元素相关联的列表的大小?

感谢

回答

1

您可以使用mapValueslen

rdd2.mapValues(list).mapValues(len) 
相关问题