我有安装了Hadoop的EC2映像。但是,我将其设置为在实例化时不起作用(它不是从属或主控)。为了启动Hadoop集群我启动的多个实例(节点),因为我需要在EC2上,然后我必须做以下3件事到每个节点:自动设置多节点Hadoop集群
- 更新/ etc/hosts文件包含必要的IP地址。
- 如果主节点更改$ HADOOP_HOME/conf/masters和$ HADOOP_HOME/conf/slave
- 在节点之间启用SSH访问。
我希望能够找到一种方法来自动执行此操作,以便对于任意数量的节点,我不必进入并在每个节点上设置所有这些设置。
其他人如何自动设置Hadoop集群?有没有办法使网络部分自动化?
我不知道这是可能的,因为IP地址每次都会有所不同,但我想知道其他人尝试了什么或常用什么。是否有一种自动化这些流程的好方法,所以每次我设置一个集群进行测试时,我不必为每个节点都执行这些操作。我不太了解Linux脚本,这是可能的脚本?或者我只需要处理手动配置每个节点?
你有没有任何理由不使用Amazon的Elastic MapReduce?在过去的一年里,我一直在使用它,它的工作效果非常好 - 您创建JAR,将数据加载到S3并提供您想要运行的机器数量和类型。 – anonymous1fsdfds
我应该澄清,最终目标是在我们自己的一组服务器上拥有一个独立于AWS,CDH等的集群。虽然服务器还不可用,所以我制作了自己的EC2映像,并安装了Hadoop。我一直在使用EC2来测试我们的服务器准备就绪,但由于我最终无法使用它,我一直在寻找一个不涉及AWS或Cloudera的答案。 –