1
发生RDD问题。 说,我有三个RDD,它们是RDD[AttribClass1]
,RDD[AttribClass2]
,RDD[AttriClass3]
,并且每个AttribClass
都有一个字段名称作为id,我想要做的是将所有属性组合成一个大的RDD,用于组合类,比如类是通过密钥将多个RDD合并为一个列
ContainerClass(id: IDClass, attrib1: AttribClass1, attrib2: AttribClass2, attrib3: AttribClass3)
而我想通过加入ID来获得RDD[ContainerClass]
。 我看到一些类似的帖子,基于查找RDD的键,但不完全一样。 Spark RDD find by key
有没有人做过类似的事情?
创建新的RDD时没有在本地进行组合的最佳方式是什么?
感谢, 施
添加一些说明: –