我想在python中使用12GB的数据,我迫切需要使用Spark,但我想我太愚蠢了,无法使用自己或通过互联网使用命令行这就是为什么我想我必须转向SO,如何使用python或jupyter笔记本电脑的火花
所以到目前为止,我已经下载了火花和解压tar文件或任何(是语言的抱歉,但我感到愚蠢和出),但现在我可以看到无处可去。我看过火花网站文档的说明,它说:
Spark还提供了Python API。要在Python解释器中以交互方式运行Spark,请使用bin/pyspark
但在何处执行此操作?请请帮忙。 编辑:我使用Windows 10
注::要安装的东西,主要是因为我似乎无法理解的命令提示符
您之前使用过Spark吗?它的RDD类型界面并不是那里最直观的工具。如果您以前使用过熊猫,那么尝试使用SFrame?它可以加载任何大小的数据(比RAM大),但比Pandas慢。语法与Pandas几乎相同。 – user1157751
不,我需要使用火花,因为我的团队使用它,我必须在星期一进行分析后提交项目 –