2012-06-21 25 views
2

我正在运行具有M个核心实例和N个任务实例的Amazon EMR集群。Amazon EMR:为每个EMR实例设置唯一的映射器和缩减器数量

我的工作每天运行多次,对时间敏感,所以我保持微米的核心情况和运行24/7,使我没有数据传送开销/从S3。

N个任务节点正在发射动态,并根据需要终止。

M个核心节点是c1.mediums和N任务节点m2.xlarge。

是否有配置每个实例mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum的方法吗?

对于核心节点欲: mapred.tasktracker.map.tasks.maximum = 2 mapred.tasktracker.reduce.tasks.maximum = 1

对于欲至少任务节点: mapred .tasktracker.map.tasks.maximum = 2 mapred.tasktracker.reduce.tasks.maximum = 2

请注意,任务跟踪器也在核心节点上运行,所以我认为此配置将需要在每个 - 实例取决于实例大小。

这可能吗?如果是的话,我该如何设置这种类型的配置?谢谢。

回答

0

这里有一个伟大的博客 - 它给你答案。 http://blog.earlh.com/index.php/2013/05/modifying-the-number-of-mappers-or-reducers-on-a-running-emr-cluster/

但请注意,您可能需要花费一点时间才能将sshing放入任务节点。它不会像那样工作。

我会将我的pem文件放到本地目录中。

搭配chmod 400对PEM文件

,然后做“SCP -l -i的Hadoop和.PEM随后的其余部分是”

如博客 心提到了你我没有试过这但尚未,但我相信它会奏效。 此外 - .versions ...的东西可能不需要。你可能只需要conf。

谢谢