2010-08-15 31 views
1

我打算在EC2上使用Hadoop。由于我们必须按实例使用情况进行支付,因此具有固定数量的实例比实际需要的实例并不好。EC2上的Hadoop集群中按需生成奴隶

在我们的应用程序中,许多作业是同时执行的,我们并不总是知道从属要求。是否可以用最少的奴隶启动hadoop集群,然后根据需求管理可用性?

即创建/点播摧毁奴隶

子问题:能否Hadoop集群管理多个作业同时?

感谢

回答

1

是在Hadoop中使用的默认调度是一个简单的FIFO之一,你可以考虑使用FairScheduler该集群的份额分配给每个正在运行的作业并拥有丰​​富的配置,以控制这些股。

就EC2而言 - 您可以轻松地开始使用一定数量的节点,然后一旦您看到队列中的任务过多,并且群集中的所有插槽都被占用 - 请添加更多。您只需启动一个实例并启动一个任务跟踪器,该任务跟踪器将向jobtracker注册。

但是,您将不得不拥有自己的系统来管理这些节点的启动和关闭。

0

只想让你知道,我们正在做这方面的一些工作Apache Whirr。我们正在跟踪WHIRR-214的进度。投票或加入发展。 :)

+0

我投了赞成票 – Nayn 2011-06-20 13:42:51