2016-10-07 43 views
1

发生RDD问题。 说,我有三个RDD,它们是RDD[AttribClass1]RDD[AttribClass2],RDD[AttriClass3],并且每个AttribClass都有一个字段名称作为id,我想要做的是将所有属性组合成一个大的RDD,用于组合类,比如类是通过密钥将多个RDD合并为一个列

ContainerClass(id: IDClass, attrib1: AttribClass1, attrib2: AttribClass2, attrib3: AttribClass3) 

而我想通过加入ID来获得RDD[ContainerClass]。 我看到一些类似的帖子,基于查找RDD的键,但不完全一样。 Spark RDD find by key

有没有人做过类似的事情?

创建新的RDD时没有在本地进行组合的最佳方式是什么?

感谢, 施

+0

添加一些说明: –

回答

0

没关系,我想知道如何做到这一点是通过RDD API看的最好方式。这可以通过groupByKey方法,然后coGroup来完成。