我试图在亚马逊云上进行设置以运行一些hadoop MapReduce作业,但我努力成功地创建一个集群。我已经下载了ec2文件,有我的证书和密钥对文件,但我相信这是AMI导致我的麻烦。如果我试图运行带有主节点和n个从节点的群集,则使用标准兼容AMI启动n + 1个实例,然后在终端中运行代码“hadoop-ec2启动群集名称n”。主节点成功,但从节点开始启动时出现错误,说“缺少参数-h(缺少AMI)”,但我不完全确定如何进展。亚马逊云上的Hadoop
此外,我的一些工作将需要改变hadoops参数设置(特别是mapred-site.xml配置文件),是否有可能改变这个文件,如果有,我该如何获得访问权限? hadoop已经安装在亚马逊机器上了,这个文件可以访问和修改吗?
感谢
首先我使用了我能找到的任何AMIs。我在终端上运行一段代码,比如“ec2-describe-images -o amazon”,然后选择AMI工作的任何一个;然后使用“ec2-run-instances amixxxxxx -n 5 -k keypair”启动具有此AMI的实例,最后尝试启动具有“hadoop-ec2启动集群名称4”的集群(这是针对具有4个从集群的集群节点)。说实话,我对云很陌生,并不知道自己在做什么。 –
我希望改变的参数是hadoop的工作参数,如io.sort.mb(用于在映射和缩小阶段之间进行排序的缓冲区内存量)等...它们通过更改文件(mapred -site.xml)存储在hadoop文件夹中。 –
@Jonathan Viccary好的,我看到,您正在使用Hadoop的src/contrib/ec2/bin中的“hadoop-ec2”脚本。如果你想以这种方式启动hadoop集群......我看了看脚本,发现它自动启动实例 - 你不必手动调用ec2-run-instances。但你必须配置它:http://wiki.apache.org/hadoop/AmazonEC2#Setting_up –