2015-10-15 44 views
0

有人能帮我理解下面有关Hadoop 1.x的问题吗?默认/找到hadoop 1.x中的mapper和reducer的数量

  1. 说我只有一个节点,我有8 GB的RAM和40 TB的硬盘与四核处理器。块大小为64 MB。我们需要处理4 TB的数据。 我们如何确定Mappers and Reducers的数量?

    有人请详细解释一下吗?请让我知道是否需要考虑任何其他参数进行计算。

  2. 假设我在一个集群中有10个数据节点,每个节点都有8GB的RAM和40TB的四核处理器硬盘。块大小为64MB。我们需要处理40 TB的数据。我们如何确定Mappers和Reducers的数量?

  3. 具有四核处理器的数据节点中的映射器和缩减器插槽的默认数是多少?

非常感谢, 马尼什

回答

0

映射器数=拆分的数量。 输入文件将被分成多个分割。每个分组都有一组记录。平均而言,每个分区都是一个区块大小(64 MB以上)。所以在你的情况下,你将有大约62500个映射器(或分裂)(4TB/64)。您也可以选择提供可配置的输入分割大小。通常,这是在读取整个文件一次时完成的,并且您决定如何处理记录。

缩减器数量=映射器输出中唯一键的数量。您可以通过在作业分类中或在jab运行命令中配置它们来选择减速器的数量。以上编号基于默认散列分区程序。你可以创建你自己的分区器,它可以决定reducer的数量。

相关问题