2016-03-28 41 views
0

我在HDInsight上设置了一个SPARK群集,并试图使用GraphFrames使用this tutorial如何在HDInsight群集中使用SPARK内的图框

我已经在群集创建过程中使用了自定义脚本,以便在此处描述启用火花群集上的GraphX

当我运行记事本,

import org.apache.spark.sql._ 
import org.apache.spark.sql.functions._ 

import org.graphframes._ 

我得到以下错误

<console>:45: error: object graphframes is not a member of package org 
     import org.graphframes._ 
       ^

我试图通过Jupyter从火花终端安装graphframes使用以下命令:

$SPARK_HOME/bin/spark-shell --packages graphframes:graphframes:0.1.0-spark1.5 

但仍然无法让它工作。我是Spark和HDInsight的新手,因此有人可以指出我需要在此群集上安装哪些功能才能实现此功能。

+0

它看起来像您的GraphX链接已损坏... –

+0

我该如何验证? – Kiran

+0

是否在非HDInsight群集上尝试过? – eliasah

回答

0

今天,这工作在spark-shell,但不能在jupyter笔记本上工作。所以当你运行这个: $ SPARK_HOME/bin/spark-shell --packages graphframes:graphframes:0.1.0-spark1.5 它在这个spark-shell会话的上下文中起作用(至少在spark 1.6集群版本上) 。 但在jupyter目前没有办法加载软件包。该功能即将添加到群集中的jupyter笔记本中。在此期间,您可以使用spark-shell或spark-submit等。

0

从Maven存储库上载或导入graphframes库后,需要重新启动集群以附加库。

所以它适用于我。

相关问题