2014-06-05 76 views
1

管理多个Hadoop集群的客户端配置的最佳做法是什么?对于“客户端”,我的意思是一台机器,它不是集群的一部分,但被某人用来向其提交作业。如何管理配置以连接到多个Hadoop集群?

我可以想到两种可能性:为每个集群配置不同的虚拟机,或者在同一台机器上的不同目录中提取和配置工具。但我不确定一个人是否明显比另一个好,或者是否有其他选择。

对于许多使用Hadoop的人来说,这似乎是一个普遍问题,但我将以我的具体情况为例。我可以访问一个大的Hadoop集群和一个较小的测试/实验Hadoop集群。他们的某些Hadoop工具版本略有不同,因为测试集群有一个工具(Shark),需要安装在主集群上的另一个工具(Hive)的不同版本。

+0

您提交的只是Hive和Shark作业吗? – Junayy

+0

@Junayy Mostly蜂巢和鲨鱼的工作,但我希望这是一个更普遍的问题。如果只是Hive和Shark作业,会不会有更简单的方法来做到这一点? –

回答

1

Cloudera安装程序会在选项中安装configs。

$ alternatives --display hadoop-conf 
hadoop-conf - status is auto. 
link currently points to /etc/hadoop/conf.pseudo.mr1 
/etc/hadoop/conf.empty - priority 10 
/etc/hadoop/conf.pseudo.mr1 - priority 30 
Current `best' version is /etc/hadoop/conf.pseudo.mr1. 

您也许可以使用相同的技术在多个配置之间切换。

这是一个不错的how-to