AWS Data Pipeline配置EMR集群运行Spark

请问有人可以帮忙吗？我正在努力做到这一点;我无法从AWS控制台内的数据管道配置中使用Spark安装创建EMR环境。我选择'在EMR集群上运行作业'，EMR集群始终使用Pig和Hive作为默认值创建，而不是Spark。AWS Data Pipeline配置EMR集群运行Spark

我明白，我可以选择的Spark作为引导行动，在这里说，但是当我做我得到这个消息：名称：xxx.xxxxxxx.processing.dp使用模板
构建：以弹性工作运行MapReduce的簇

参数： EC2密钥对（可选）：xxx_xxxxxxx_emr_key EMR步骤（一个或多个）：
火花提交--deploy模式集群S3：//xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3：//xxx.xxxxxxx.scripts.bucket/

EMR发布标签：emr-4.3.0 Bootstrap动作（可选）：s3：//support.elasticmapreduce/spark/install-spark,-v,1.4.0.b

AMI位在哪里？上面的外观是否正确？

这是我在激活数据管道时遇到的错误：由于以下原因，无法为@ EmrClusterObj_2017-01-13T09：00：07创建资源：提供的引导操作：'bootstrap-action.6255c495-版本'emr-4.3.0'不支持578a-441a-9d05-d03981fc460d'。（服务：AmazonElasticMapReduce;状态码：400;错误代码：ValidationException;请求ID：b1b81565-d96e-11e6-bbd2-33fb57aa2526）

如果我指定EMR的更高版本，是否将Spark安装为默认值？

非常感谢您的任何帮助。此致敬礼。

来源

2017-01-13 MarkAUK123

install-spark bootstrap动作仅适用于3.x AMI版本。如果您使用的是releaseLabel（emr-4.x或更高版本），则要以不同的方式指定要安装的应用程序。

我自己从来没有使用数据管道，但是我看到如果在创建管道时，单击底部的“在Architect中编辑”，然后可以单击EmrCluster节点并从“添加一个可选字段...“下拉菜单。这是你可以添加Spark的地方。

来源

2017-01-13 17:44:31

非常感谢这，它解决了最初的问题;我的集群现在从Spark开始。 – MarkAUK123

但现在我的Spark步骤无法正确执行..运行时出现'无法下载'错误，并且'仅支持s3 +本地文件'...此处有任何想法？ – MarkAUK123

AWS Data Pipeline配置EMR集群运行Spark

回答

相关问题