2017-07-24 16 views
1

我使用pyspark ubuntu下与Python 2.7 我安装了它使用如何使用pyspark启动独立群集?

pip install pyspark --user 

,并试图按照instruction设置火花集群

我无法找到脚本start-master.sh 我假设它与事实,我安装了pyspark和不正常的火花

我发现here,我可以通过pyspark连接一个工人节点到主人,但我如何启动主节点与pyspark?

+0

我不知道pyspark是否下载了所有的Spark,为您设置了Java以及所有先决条件......您是否试图在该文件中搜索您的操作系统磁盘? –

+0

是的,我做到了。 Pyspark能够连接到主人并成为工作人员。但是,我如何设置服务器? – thebeancounter

回答

1

那么我做了一些混合操作。

你需要在应该作为主机运行的机器上产生火花。 你可以下载它here

解压后,你有spark/sbin文件夹,那里你有start-master.sh脚本。你需要用-h参数来启动它。

请注意,您需要创建一个像解释here一样的spark-env文件,并定义spark本地变量和主变量,这在主机上很重要。

之后,在工作节点上,使用start-slave.sh脚本启动工作节点。

而你很好去,你可以使用python中的spark上下文来使用它!

3

https://pypi.python.org/pypi/pyspark

Python的包装火花并不是要取代所有......使用情况。此Python打包版本的Spark适合与现有群集(不管它是Spark独立,YARN还是Mesos)进行交互 - 但不包含设置您自己的独立Spark群集所需的工具。您可以从Apache Spark下载页面下载Spark的完整版本。