我是Spark
和Scala
的新手,我试图执行从文本文件中的数据创建图形的简单任务。如何使用Spark Scala中的Graph.fromEdgeTuples从CSV文件创建图形
从文档
https://spark.apache.org/docs/0.9.0/api/graphx/index.html#org.apache.spark.graphx.Graph $ @ fromEdges [VD,ED]%28RDD [边缘[ED],VD%29%28ClassTag [VD],ClassTag [ED]%29:图[VD,ED]
我可以看到我可以从tuples of vertices
创建一个图表。
我简单的文本文件看起来像这样,每个数字是一个顶点:
v1 v3
v2 v1
v3 v4
v4
v5 v3
当我从文件中读取
VAL myVertices = myData.map数据(线=> line.split(“”)) 我得到一个RDD [数组[String]]。
我的问题是:
如果这是解决这个问题的正确方法,我怎么转
RDD[Array[String]]
成正确的格式,其中根据文档RDD[(VertexId, VertexId)]
(也VertexID
必须是long类型的,而且我正在使用字符串)是否有其他替代方法,我可以通过类似于csv文件的结构构建图表?
任何建议将是非常受欢迎的。谢谢!
非常感谢,这位:val edgesRDD:RDD [(VertexId,VertexId)] = file.map(line => line.split(“”)) .map(line => (MurmurHash.stringHash (line(0).toString),MurmurHash.stringHash(line(1).toString)))正是我正在寻找 –