合并两个RDD密钥是不一样的，但相关的

在pyspark，考虑两个RDDS，如：合并两个RDD密钥是不一样的，但相关的

rrd1 = [('my name',5),('name is',4)]

和

rdd2 = [('my',6),('name',10),('is',5)]

其中RDD1集是二元语法的元组和计数，rdd2是相应的单元和元组的元组，我想要有一个3元素元组的RDD，例如：

RDD = [ (('my name',5),('my',6),('name',10)) , (('name is',4), ('name',10),('is',5)) ]

我试图rdd2.union(rdd1).reduceByKey(lambda x,y : x+y)但在这种情况下，它是不是在某种意义上它们是相关的正确方法，因为键是不同的，但。

来源

2017-05-12 Elm662

您是否使用Python或Scala呢？你标记了python，但你的代码是scala？ – Psidom

我正在使用python，这些示例只是以元组列表的形式显示rdd。我不知道scala！ – Elm662

你可以这样做;拆分两字 RDD生成密钥与rdd2加入，再由二元组收集属于同一二元共同元素：

(rdd1.flatMap(lambda x: [(w, x) for w in x[0].split()])  
    .join(rdd2.map(lambda x: (x[0], x))) 
    .map(lambda x: x[1]) 
    .groupBy(lambda x: x[0]) 
    .map(lambda kv: (kv[0],) + tuple(v[1] for v in kv[1])) 
    .collect()) 

# [(('name is', 4), ('name', 10), ('is', 5)), (('my name', 5), ('name', 10), ('my', 6))]

来源

2017-05-12 17:31:10 Psidom

有什么办法可以保持顺序，就像在第二个元组中，（'name'，10）和（'my'，6）的顺序与tworam不一样'我的名字'我想要有东西（''name'，5），（'my'，6），（'name'，10），（'is'，5） 'name'，10））]' – Elm662

合并两个RDD密钥是不一样的，但相关的

回答

相关问题