graphframes

1热度

1回答

我花了差不多2天时间浏览互联网，但无法解决这个问题。我试图安装graphframes package（版本：0.2.0-spark2.0-s_2.11）通过PyCharm以spark运行，但尽管我尽了最大的努力，但这是不可能的。我已经尝试了几乎所有的东西。请知道我在查看答案之前也查看了本网站here。这里是我试图运行的代码： # IMPORT OTHER LIBS --------------

3热度

1回答

将PyFark中的GraphFrames ShortestPath映射转换为DataFrame行

我试图找到从GraphFrames函数shortestPath中获取Map输出的最有效方式，并将每个顶点的距离映射平铺到新DataFrame中的各个行中。我已经能够非常笨拙地将distance列拖到字典中，然后从那里转换成熊猫数据框，然后转换回Spark数据框，但我知道必须有更好的方法。 from graphframes import * v = sqlContext.createDataFr

4热度

1回答

如何处理Apache Spark中群集节点之间独立处理的不同图形文件？

可以说我有大量的图形文件，每个图形都有大约500K的边缘。我一直在Apache Spark上处理这些图形文件，我想知道如何高效地并行化整个图形处理工作。因为现在，每个图形文件都是独立的，我正在寻找与文件并行的方式。因此，如果我有100个图形文件，而且有20个节点群集，我可以处理每个节点上的每个文件，因此每个节点将处理5个文件。现在，发生的事情就像单个图正在处理多个阶段，这导致了很多混洗。 grap

1热度

1回答

如何编写一个转换函数来转换参照Graphframe对象的RDD？

我有一个Graphframe对象：g和a RDD对象：候选： g = GraphFrame(v,e) candidates_rdd.collect() # [Row(source=u'a', target=u'b'), # Row(source=u'a', target=u'c'), # Row(source=u'e', target=u'a')] 欲计算路径从“源”在candidat

0热度

2回答

如何在HDInsight群集中使用SPARK内的图框

我在HDInsight上设置了一个SPARK群集，并试图使用GraphFrames使用this tutorial。我已经在群集创建过程中使用了自定义脚本，以便在此处描述启用火花群集上的GraphX。当我运行记事本， import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.graphf

0热度

1回答

java.lang.OutOfMemoryError相关星火Graphframe BFS

后，我打电话BFS 20+次以这种方式出现的OutOfMemoryError： list_locals = [] #g is the graphframe with > 3 million nodes and > 15 million edges. def fn(row): arg1 = "id = '%s'" %row.arg1 arg2 = "id = '%s'" %

2热度

4回答

导入PySpark包

我已经下载了graphframes包（从here）并将其保存到本地磁盘上。现在，我想使用它。所以，我用下面的命令： IPYTHON_OPTS="notebook --no-browser" pyspark --num-executors=4 --name gorelikboris_notebook_1 --py-files ~/temp/graphframes-0.1.0-spark1.5.jar

0热度

1回答

GraphFrames api是否支持创建Bipartite图形？

GraphFrames api是否支持在当前版本中创建Bipartite图形？当前版本：0.1.0 星火版本：1.6.1

2热度

2回答

PySpark GraphFrame的正确子图

graphframes是基于PySpark DataFrame的网络分析工具。以下代码是教程subgraphing例的修改后的版本： from graphframes.examples import Graphs import graphframes g = Graphs(sqlContext).friends() # Get example graph # Select subgraph