2016-02-17 71 views
0

我有一个火花此数据类型的RDD:RDD [(中间体,数组[INT])])火花RDD跨成对的RDD唯一值

该RDD的样品的值是:

100 ,阵列(1,2,3,4,5)

200,阵列(1,2,50,20)

300,阵列(30,2,400,1)

我想获得所有独特的价值本RDD的所有阵列元素 我不在乎关键,只想获得所有的 唯一值。所以上面样本的结果是 (1,2,3,4,5,20,30,50,400)。

什么将是一个有效的方法来做到这一点。

回答

4

我想这大概应该工作:

val result = rdd.flatMap(_._2).distinct 

如果你想在一个RDD结果,或

val result = rdd.flatMap(_._2).distinct.collect 

,如果你想要的结果在当地收集。