apache spark上的不相交集合

我试图找到使用apache spark在大量数据上搜索不相交集合（连接组件/ union-find）的算法。问题是数据量。甚至图形顶点的原始表示也不适合在单个机器上运行。边缘也不适合公羊。apache spark上的不相交集合

源数据是hdfs上的图边的文本文件：“id1 \ t id2”。

id以字符串值存在，而不是int。

朴素的解决方案，我发现是：边缘

但是这会导致对大量数据的节点之间的传输（改组）

有何建议？

2016-05-18 Puh

我认为graphx将有你需要内置（链接什么：http://spark.apache.org/ graphx /） –

如果您正在使用的图形工作，我建议你看一看这些库

他们都提供连接组件的算法出来的任一个盒子。

GraphX：

val graph: Graph = ... 
val cc = graph.connectedComponents().vertices

GraphFrames：

val graph: GraphFrame = ... 
val cc = graph.connectedComponents.run() 
cc.select("id", "component").orderBy("component").show()

2017-06-14 14:28:10 Gevorg

回答