2014-09-02 103 views
2

试图运行启动Spark作业。远程运行火花作业

Spark作为Cloudera Hadoop中的包裹安装。

如何使用Java API远程启动Spark作业?

+0

你的意思是“启动Spark作业远程”?通过SSH连接到您的Spark Cluster并调用spark-submit脚本不够吗?你可以通过编程来完成相同的步骤! – emecas 2014-09-14 12:07:28

+0

我在其他主机的主机“A”和CDH群集上有一些Web服务。我想通过服务器“A”中的某些API运行作业,而不使用spark-submit命令。有可能的? – mgurov 2014-09-15 09:33:15

+0

看起来像你需要https://github.com/spark-jobserver/spark-jobserver – 2015-02-02 22:26:41

回答

-1

检查从以下网址火花主主机名的火花集群:如果运行良好 去机器从要启动作业 (>>这款机器还应该安装了火花库提交作业并) 从你的机器打这个命令 火花提交--class --jars --master火花://:7077的.jar

2

从代码编程提交申请星火,而不是使用提交脚本,您将需要创建一个SparkContext

这里是Java API SparkContext

要进一步配置的情况下你提供给它一个SparkConf相匹配的配置页面上输入该值:Configuration

您的群集需要你的代码的副本将在其类路径中提交给它。有多种方法可以执行此操作,您可以手动在集群上管理它,或者使用setJars方法将它传递到SparkConf

从Spark 1.3.1开始,每个JVM一次只能创建1 SparkContext。所以如果你想从同一个JVM提交并发应用程序,你需要正确地管理这个共享资源。