回答
假设您安装了SSM,可以使用ssm.send_command(将命令发送给所有节点)来调用S3脚本,该脚本在正在运行的EMR集群上安装并启动钻取。
在AWS Github https://github.com/awslabs/emr-bootstrap-actions/blob/master/drill/setup_drill上提供了一个ruby脚本,它看上去像应该的工作,假设你已经安装了ruby。我没有看到它无法在现有群集上运行的任何原因。安装了所有选定的EMR组件后,EMR运行引导脚本,应用hadoop用户创建和配置设置。当然,你会在一个新的集群上测试它,所以你不会破坏你的持久集群。
该脚本需要在每个节点上运行,因此您可以scp或将其复制到s3,然后使用aws cli将其复制到每个节点,或使用@fmcmac建议的内容。我在line 38上看到它知道当前节点是否是主节点,因此它具有足够的智能以便正确安装。
它看起来已经更新几年了,所以您需要检查它正在安装的版本&的依赖项版本,并且可能会进行一些调整。它似乎试图从http://getdrill.org/drill/download获得apache-drill-1.0.0.tar.gz,它应该是来自较新站点https://drill.apache.org/download/的v1.12.0,因此至少该部分需要更改。它还会安装Zookeeper来运行Drill,因此如果zookeeper已经存在,Drill将需要作为新的应用程序安装,因此请检查您是否已经在运行Zookeeper,如果尝试在顶部安装,版本兼容性可能会遇到问题仔细检查。另外,EMR集群被拆除,引导脚本&集群配置和“步骤”使得这一点变得简单。开机,运行工作,拆卸。这种方式更便宜。 “集群是牛,而不是宠物”。即使您需要它为分析师工作,也有一些时候它没有被使用,因此会花费您的钱。
- 1. EMR群集上没有安装Spark
- 2. 如何在AWS群集上运行TensorFlow?
- 3. 如何在EMR集群中运行/安装oozie
- 4. 如何在现有的EMR集群上运行EmrActivity?
- 5. 如何在现有Apache Spark独立群集上安装Apache Zeppelin
- 6. 在hadoop集群上安装spark集群
- 7. 在长时间运行的EMR集群上设置AWS数据管道
- 8. OperationTimeoutException Cassandra集群AWS/EMR
- 9. 如何在Linux群集上安装numpy?
- 10. 如何在AWS EMR上启用SSO登录到Apache Zeppelin EMR
- 11. AWS EMR在集群中所有已运行的计算机上执行“引导”脚本
- 12. 在AWS EMR上运行Spark,如何在主节点上运行驱动程序?
- 13. 如何在EMR上安装Cloudera impala?
- 14. 在AWS EMR群集上使用SparkLauncher时缺少SPARK_HOME
- 15. 如何获取AWS EMR群集中某个步骤的状态?
- 16. 在EMR上安装GIT
- 17. 在EMR上安装RStudio
- 18. 在已经运行的VPS上安装Plesk
- 19. 如何在PC群集上运行VMWare?
- 20. 如何在windows的amazon弹性mapreduce(emr)集群上运行mapreduce作业?
- 21. AWS Data Pipeline配置EMR集群运行Spark
- 22. AWS EMR上的Presto Sandbox集群 - 添加连接器(catalog/.properties)
- 23. 在群集上运行openmp
- 24. 如何在集群上安装多个显卡上的软件
- 25. 带有火花的AWS DataPipeline EMR集群
- 26. Amazon EMR上的sqoop安装
- 27. 我可以像在本地群集上一样在EMR上运行作业
- 28. Amazon EMR集群上的spark-csv错误
- 29. 如何通过AWS数据管道行在AWS EMR群集中运行多个并行点火作业
- 30. AWS EMR集群无法启动