2017-09-22 57 views
1

我正尝试使用AWS Data PipeLine在EMR群集中设置运行Spark作业的流程。我们的流程按照“按需”计划运行。如何通过AWS数据管道行在AWS EMR群集中运行多个并行点火作业

作为此活动的一部分,我们在管道开始时创建一个EMR集群,然后我们希望并行地在一个emr集群上运行多个spark任务。

有没有,我们可以在数据管道上按照“按需”计划运行并行作业。

+0

分配你的集群是一个“工作组”,并且所有的Spark活动都在那里运行。如果他们不相互依赖,他们应该同时开始。那么你只需要在YARN上配置你的Spark(或其他任何调度程序)来以最有效的方式处理并发作业。 – user4601931

+0

谢谢,这个选项工作。除此之外,是否有可能在我的EMRActivity失败时运行单独的活动(可以是任何活动)。我只能看到我们可以发送通知。我可以通过lambda处理我的通知,并可以处理它。但是在同一条管线中是有可能的。 – Krish

回答

相关问题