2017-01-13 68 views
1

请问有人可以帮忙吗?我正在努力做到这一点;我无法从AWS控制台内的数据管道配置中使用Spark安装创建EMR环境。我选择'在EMR集群上运行作业',EMR集群始终使用Pig和Hive作为默认值创建,而不是Spark。AWS Data Pipeline配置EMR集群运行Spark

我明白,我可以选择的Spark作为引导行动,在这里说,但是当我做我得到这个消息: 名称:xxx.xxxxxxx.processing.dp使用模板
构建:以弹性工作运行MapReduce的簇

参数: EC2密钥对(可选):xxx_xxxxxxx_emr_key EMR步骤(一个或多个):
火花提交--deploy模式集群S3://xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3://xxx.xxxxxxx.scripts.bucket/

EMR发布标签:emr-4.3.0 Bootstrap动作(可选):s3://support.elasticmapreduce/spark/install-spark,-v,1.4.0.b

AMI位在哪里?上面的外观是否正确?

这是我在激活数据管道时遇到的错误: 由于以下原因,无法为@ EmrClusterObj_2017-01-13T09:00:07创建资源:提供的引导操作:'bootstrap-action.6255c495-版本'emr-4.3.0'不支持578a-441a-9d05-d03981fc460d'。 (服务:AmazonElasticMapReduce;状态码:400;错误代码:ValidationException;请求ID:b1b81565-d96e-11e6-bbd2-33fb57aa2526)

如果我指定EMR的更高版本,是否将Spark安装为默认值?

非常感谢您的任何帮助。 此致敬礼。

回答

2

install-spark bootstrap动作仅适用于3.x AMI版本。如果您使用的是releaseLabel(emr-4.x或更高版本),则要以不同的方式指定要安装的应用程序。

我自己从来没有使用数据管道,但是我看到如果在创建管道时,单击底部的“在Architect中编辑”,然后可以单击EmrCluster节点并从“添加一个可选字段...“下拉菜单。这是你可以添加Spark的地方。

+0

非常感谢这,它解决了最初的问题;我的集群现在从Spark开始。 – MarkAUK123

+0

但现在我的Spark步骤无法正确执行..运行时出现'无法下载'错误,并且'仅支持s3 +本地文件'...此处有任何想法? – MarkAUK123