加入多个RDDS

我有型RDD的4rdds：（（INT，INT，INT）值）和我的RDDS是加入多个RDDS

rdd1: ((a,b,c), value) 
rdd2:((a,d,e),valueA) 
rdd3:((f,b,g),valueB) 
rdd4:((h,i,c),valueC)

如何加入像RDD1集的RDDS上 “一” RDD1集加入RDD2在“b”上加入rdd2，在“c”上加入rdd1 rdd3

所以在Scala中的输出是finalRdd: ((a,b,c),valueA,valueB,valueC,value))？

我试着用collectAsMap这样做，但它没有很好地工作，并抛出异常

代码只是为了RDD1集加入RDD2

val newrdd2=rdd2.map{case((a,b,c),d)=>(a,d)}.collectAsMap 
val joined=rdd1.map{case((a,b,c),d)=>(newrdd2.get(a).get,b,c,d)}

例如

rdd1: ((1,2,3),animals) 
rdd2:((1,anyInt,anyInt),cat) 
rdd3:((anyInt,2,anyInt),cow) 
rdd 4: ((anyInt,anyInt,3),parrot)

输出应该是((1,2,3),animals,cat,cow,parrot)

来源

2015-12-18 luis

你能否写一个更好的例子，数据里面的rdds？ –

我添加了一个例子，它不关心anyInt字段上的数字是什么 – luis

rdd1中是否有重复的行？重复密钥？（例如，具有“（1,2,3）”和值“动物”和“另一种动物”的两个元素） –

有一个方便的join方法，但您需要通过您特定的连接键来键入它，这是Spark用于分区和混排的关键。

从the docs：

加入（otherDataset，[numTasks]）：当对类型的数据集称为（K，V）和（K，W），则返回（K，（V的一个数据集， W））与每个键的所有元素对配对。外连接通过leftOuterJoin，rightOuterJoin和fullOuterJoin支持。

我不能编译我在哪里，但一方面它是这样的：

val rdd1KeyA = rdd1.map(x => (x._1._1, (x._1._2, x._1._3. x._2) // RDD(a, (b,c,value)) 
val rdd2KeyA = rdd2.map(x => (x._1._1, x._2) // RDD(a, valueA) 
val joined1 = rdd1KeyA.join(rdd2KeyA) // RDD(a, ((b,c,value), valueA)) 

val rdd3KeyB = rdd3.map(x => (x._1._2, x._2) // RDD(b, valueB) 
val joined1KeyB = joined1.map(x => (x._2._1._1, (x._1, x._2._1._2, x._2._1._3. x._2._2) // RDD(b, (a, c, value, valueA)) 
val joined2 = joined1KeyB.join(rdd3keyB) // RDD(b, ((a, c, value, valueA), valueB))

...等等

避免collect*功能，因为它们不使用您的数据的分布式特性，并且在大负载时很容易失败，它们将RDD上的所有数据混洗到主节点上的内存中集合，可能会将所有内容都吹起来。

来源

2015-12-18 15:38:45

回答

相关问题