2016-09-16 63 views
0

我必须将一些python应用程序发送到Apache Spark群集。给定一个Clustermanager和一些带有地址的工作节点来发送应用程序。按给定群集配置Spark

我的问题是,如何在我的本地计算机上设置和配置Spark,以便将这些请求与要处理的数据一起发送到群集?

我在Ubuntu 16.xx上工作,已经安装了java和scala。我已经搜索了inet,但大多数发现是如何构建集群或一些旧的建议如何做到这一点,这是过时的。

回答

0

我假设你正在运行远程集群,并且你可以从远程服务器本身提交作业。你需要的是ssh tuneling。请记住,它不适用于aws。

ssh -f [email protected] -L 2000:personal-server.com:7077 -N 

在这里阅读更多:http://www.revsys.com/writings/quicktips/ssh-tunnel.html

+0

为什么隧道?不会在spark-submit命令中设置主设备足够了吗? –

0

你的问题不清楚。如果数据位于本地计算机上,则应首先将数据复制到HDFS文件系统上的群集。 Spark可以使用YARN(使用YARN或MESOS?)以3种模式工作:群集,客户端和独立模式。您正在寻找的是客户端模式或集群模式。但是,如果您想从本地机器启动应用程序,请使用客户端模式。如果您有SSH访问权限,则可以自由使用两者。

最简单的方法是直接在集群上复制代码(如果它已正确配置),然后使用./spark-submit脚本启动应用程序,并提供要用作参数的类。它适用于python脚本和java/scala类(我只使用python,所以我不知道)