在pyspark,考虑两个RDDS,如:合并两个RDD密钥是不一样的,但相关的
rrd1 = [('my name',5),('name is',4)]
和
rdd2 = [('my',6),('name',10),('is',5)]
其中RDD1集是二元语法的元组和计数,rdd2是相应的单元和元组的元组, 我想要有一个3元素元组的RDD,例如:
RDD = [ (('my name',5),('my',6),('name',10)) , (('name is',4), ('name',10),('is',5)) ]
我试图rdd2.union(rdd1).reduceByKey(lambda x,y : x+y)
但在这种情况下,它是不是在某种意义上它们是相关的正确方法,因为键是不同的,但。
您是否使用Python或Scala呢?你标记了python,但你的代码是scala? – Psidom
我正在使用python,这些示例只是以元组列表的形式显示rdd。我不知道scala! – Elm662