2016-08-22 132 views
3

我想在python中使用12GB的数据,我迫切需要使用Spark,但我想我太愚蠢了,无法使用自己或通过互联网使用命令行这就是为什么我想我必须转向SO,如何使用python或jupyter笔记本电脑的火花

所以到目前为止,我已经下载了火花和解压tar文件或任何(是语言的抱歉,但我感到愚蠢和出),但现在我可以看到无处可去。我看过火花网站文档的说明,它说:

Spark还提供了Python API。要在Python解释器中以交互方式运行Spark,请使用bin/pyspark但在何处执行此操作?请请帮忙。 编辑:我使用Windows 10

注::要安装的东西,主要是因为我似乎无法理解的命令提示符

+0

您之前使用过Spark吗?它的RDD类型界面并不是那里最直观的工具。如果您以前使用过熊猫,那么尝试使用SFrame?它可以加载任何大小的数据(比RAM大),但比Pandas慢。语法与Pandas几乎相同。 – user1157751

+0

不,我需要使用火花,因为我的团队使用它,我必须在星期一进行分析后提交项目 –

回答

1

当你解压缩文件时,我一直面临的问题,将创建一个目录。

  1. 打开终端。
  2. 使用cd导航到该目录。
  3. 做一个ls。你会看到它的内容。 bin必须放置在某个地方 。
  4. 执行bin/pyspark或者也许./bin/pyspark

当然,在实践中它不是那么简单的,你可能需要设置一些路径,比如在TutorialsPoint说,但也有很多这样的链接在那里。

+0

感谢您的答案,我可以随身携带,而我安装它?请这将是一个很大的帮助。如果你想我们可以聊天 –

+0

@AuuragPandey我知道你的感受。不幸的是,我不能,我在工作。我发现这个很有帮助,接受它。如果您出现问题,请发布一个新问题。 – gsamaras

3

如果你对jupyter笔记本比较熟悉,你可以安装Apache Toree,它集成了pyspark,scala,sql和SparkR内核与Spark。

安装toree

pip install toree 
jupyter toree install --spark_home=path/to/your/spark_directory --interpreters=PySpark 
如果你想安装其他内核

可以使用

jupyter toree install --interpreters=SparkR,SQl,Scala 

现在运行

jupyter notebook 

在UI的同时选择新的笔记本电脑,你应该看到下面的内核可用

Apache Toree-Pyspark 
Apache Toree-SparkR 
Apache Toree-SQL 
Apache Toree-Scala 
+0

我可以在几个问题后安装,但我想我会尝试你的方法在不同的机器上,谢谢 –

+0

@AuuragPandey这是个好消息!确保您在尝试后接受答案! :) – gsamaras

0

我明白,你已经在Windows 10

你需要有winutils.exe可用,以及安装的火花。如果你还没有这样做,从http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe下载文件,并在安装比如说,C:\ winutils \ BIN

设置环境变量

HADOOP_HOME=C:\winutils 
SPARK_HOME=C:\spark or wherever. 
PYSPARK_DRIVER_PYTHON=ipython or jupyter notebook 
PYSPARK_DRIVER_PYTHON_OPTS=notebook 

现在导航到C:在\星火目录在命令提示符下输入“pyspark”

Jupyter笔记本将在浏览器中启动。 如图所示创建一个spark上下文并运行计数命令。

enter image description here

相关问题