如何管理配置以连接到多个Hadoop集群？

管理多个Hadoop集群的客户端配置的最佳做法是什么？对于“客户端”，我的意思是一台机器，它不是集群的一部分，但被某人用来向其提交作业。如何管理配置以连接到多个Hadoop集群？

我可以想到两种可能性：为每个集群配置不同的虚拟机，或者在同一台机器上的不同目录中提取和配置工具。但我不确定一个人是否明显比另一个好，或者是否有其他选择。

对于许多使用Hadoop的人来说，这似乎是一个普遍问题，但我将以我的具体情况为例。我可以访问一个大的Hadoop集群和一个较小的测试/实验Hadoop集群。他们的某些Hadoop工具版本略有不同，因为测试集群有一个工具（Shark），需要安装在主集群上的另一个工具（Hive）的不同版本。

来源

2014-06-05 Tom Panning

您提交的只是Hive和Shark作业吗？ – Junayy

@Junayy Mostly蜂巢和鲨鱼的工作，但我希望这是一个更普遍的问题。如果只是Hive和Shark作业，会不会有更简单的方法来做到这一点？ –

Cloudera安装程序会在选项中安装configs。

$ alternatives --display hadoop-conf 
hadoop-conf - status is auto. 
link currently points to /etc/hadoop/conf.pseudo.mr1 
/etc/hadoop/conf.empty - priority 10 
/etc/hadoop/conf.pseudo.mr1 - priority 30 
Current `best' version is /etc/hadoop/conf.pseudo.mr1.

您也许可以使用相同的技术在多个配置之间切换。

这是一个不错的how-to。

来源

2014-08-07 15:27:21 hba

如何管理配置以连接到多个Hadoop集群？

回答

相关问题