2017-08-13 69 views

回答

1

EMR步骤是描述你想如何提交火花罐的地方。

当您创建新的数据管道时,您可以选择“使用模板构建”选项,然后选择“在弹性MapReduce集群上运行作业”。

现在在EmrActivity中,您应该描述您要提交的步骤(如果需要,也可以运行多个步骤)。

你可以阅读这个AWS EMR Spark Step Guide以了解步骤是什么。简而言之,它是描述如何提交火花作业的地方。

请注意,虽然在数据管道上出于某些不明确的原因,您需要在步骤中用','替换空格。这里是一个火花一步我就datapipeline跑了一个例子:

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments> 

我留下了一些我的配置,所以,你可以明白的地方使用它们,我更换了一些与<“文本”>这样你就可以切换附上您自己的信息

+0

谢谢!它帮助我们为我们的数据管道编写步骤。我们实际上遇到了几个问题,我们的EMR火花实例与我们的工作不兼容。它花了一段时间,但我们能够弄清楚。 –