所以我RDD由数据看起来像:创建与现有的键值列表的组合 - Pyspark
(k, [v1,v2,v3...])
我想创建一个价值部分的所有套二的组合。
所以最终图应该是这样的:
(k1, (v1,v2))
(k1, (v1,v3))
(k1, (v2,v3))
我知道得到的价值的一部分,我会使用类似
rdd.cartesian(rdd).filter(case (a,b) => a < b)
然而,这需要传递整个RDD(对吧?)不只是价值的一部分。我不确定如何达到我想要的目的,我怀疑它是一个群体。
而且,最终,我想要得到的K,V看起来就像
((k1,v1,v2),1)
我知道如何从我所期待的该得到的,但也许它更容易直来直去那里?
谢谢。
欢迎使用计算器。请格式化您的问题,摆脱缩写,并[读这篇文档](http://stackoverflow.com/help/how-to-ask)。这会让你的问题对未来的读者有用。 –