2017-03-31 39 views
1

所以,让我们说我有以下两个RDDS: (这些只是每个RDD前几行)如何在Spark(Scala)中组合两个RDD?

RDD1集:

Time     Temp 
2014-08-12 13:20:00 22 
2014-08-12 13:21:00 24 
2014-08-12 13:24:00 26 
2014-08-12 13:26:00 27 
2014-08-12 13:28:00 22 

RDD2:

Time     Age 
2014-08-12 13:20:00 45 
2014-08-12 13:21:00 45 
2014-08-12 13:24:00 46 
2014-08-12 13:26:00 37 
2014-08-12 13:28:00 122 

我想要将它们组合起来,使得RDD2的列被添加到RDD1。我不能使用union,因为这只会将RDD2添加到RDD1的底部,而我想将它添加到“一侧”,如果这样做合理的话。

+0

您需要加入它们 –

回答

5

join会让你“并排”地加入这些RDD。从该文档:

当呼吁(K,V)和(K,W)类型的数据集,则返回(K,(V,W))对与所有对的元素的每个键的数据集。外连接通过leftOuterJoin,rightOuterJoin和fullOuterJoin支持。

相关问题