graphframes

    1热度

    1回答

    我花了差不多2天时间浏览互联网,但无法解决这个问题。我试图安装graphframes package(版本:0.2.0-spark2.0-s_2.11)通过PyCharm以spark运行,但尽管我尽了最大的努力,但这是不可能的。 我已经尝试了几乎所有的东西。请知道我在查看答案之前也查看了本网站here。 这里是我试图运行的代码: # IMPORT OTHER LIBS --------------

    3热度

    1回答

    我试图找到从GraphFrames函数shortestPath中获取Map输出的最有效方式,并将每个顶点的距离映射平铺到新DataFrame中的各个行中。我已经能够非常笨拙地将distance列拖到字典中,然后从那里转换成熊猫数据框,然后转换回Spark数据框,但我知道必须有更好的方法。 from graphframes import * v = sqlContext.createDataFr

    4热度

    1回答

    可以说我有大量的图形文件,每个图形都有大约500K的边缘。我一直在Apache Spark上处理这些图形文件,我想知道如何高效地并行化整个图形处理工作。因为现在,每个图形文件都是独立的,我正在寻找与文件并行的方式。因此,如果我有100个图形文件,而且有20个节点群集,我可以处理每个节点上的每个文件,因此每个节点将处理5个文件。现在,发生的事情就像单个图正在处理多个阶段,这导致了很多混洗。 grap

    1热度

    1回答

    我有一个Graphframe对象:g和a RDD对象:候选: g = GraphFrame(v,e) candidates_rdd.collect() # [Row(source=u'a', target=u'b'), # Row(source=u'a', target=u'c'), # Row(source=u'e', target=u'a')] 欲计算路径从“源”在candidat

    0热度

    2回答

    我在HDInsight上设置了一个SPARK群集,并试图使用GraphFrames使用this tutorial。 我已经在群集创建过程中使用了自定义脚本,以便在此处描述启用火花群集上的GraphX。 当我运行记事本, import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.graphf

    0热度

    1回答

    后,我打电话BFS 20+次以这种方式出现的OutOfMemoryError: list_locals = [] #g is the graphframe with > 3 million nodes and > 15 million edges. def fn(row): arg1 = "id = '%s'" %row.arg1 arg2 = "id = '%s'" %

    2热度

    4回答

    我已经下载了graphframes包(从here)并将其保存到本地磁盘上。现在,我想使用它。所以,我用下面的命令: IPYTHON_OPTS="notebook --no-browser" pyspark --num-executors=4 --name gorelikboris_notebook_1 --py-files ~/temp/graphframes-0.1.0-spark1.5.jar

    0热度

    1回答

    GraphFrames api是否支持在当前版本中创建Bipartite图形? 当前版本:0.1.0 星火版本:1.6.1

    2热度

    2回答

    graphframes是基于PySpark DataFrame的网络分析工具。以下代码是教程subgraphing例的修改后的版本: from graphframes.examples import Graphs import graphframes g = Graphs(sqlContext).friends() # Get example graph # Select subgraph