按给定群集配置Spark

我必须将一些python应用程序发送到Apache Spark群集。给定一个Clustermanager和一些带有地址的工作节点来发送应用程序。按给定群集配置Spark

我的问题是，如何在我的本地计算机上设置和配置Spark，以便将这些请求与要处理的数据一起发送到群集？

我在Ubuntu 16.xx上工作，已经安装了java和scala。我已经搜索了inet，但大多数发现是如何构建集群或一些旧的建议如何做到这一点，这是过时的。

2016-09-16 Sam

我假设你正在运行远程集群，并且你可以从远程服务器本身提交作业。你需要的是ssh tuneling。请记住，它不适用于aws。

ssh -f [email protected] -L 2000:personal-server.com:7077 -N

来源

2016-09-16 15:25:17 Dima

为什么隧道？不会在spark-submit命令中设置主设备足够了吗？ –

你的问题不清楚。如果数据位于本地计算机上，则应首先将数据复制到HDFS文件系统上的群集。 Spark可以使用YARN（使用YARN或MESOS？）以3种模式工作：群集，客户端和独立模式。您正在寻找的是客户端模式或集群模式。但是，如果您想从本地机器启动应用程序，请使用客户端模式。如果您有SSH访问权限，则可以自由使用两者。

最简单的方法是直接在集群上复制代码（如果它已正确配置），然后使用./spark-submit脚本启动应用程序，并提供要用作参数的类。它适用于python脚本和java/scala类（我只使用python，所以我不知道）

来源

2016-09-16 11:19:52 GwydionFR

按给定群集配置Spark

回答

相关问题