假设有3个从节点和一个复制因子为2的主节点的hadoop集群。进一步假设文件F被分成3个块A,B和C,它们的存储方式如下: 从站1:A,B 从站2:A,C 从站3:B,CHadoop MapReduce负载平衡
另外,假设你踢地图reduce作业来计算F中的字数并且每个块被拆分3倍。
我的问题是如何分布映射器,以便他们优化最大生产力?一种可能性: 从1:3映射器对一个 从工作2:3的制图员可以基于C 从3工作:3映射器第B
但如何Hadoop的避免以下工作? 从1:6映射器(第B 3 A,3) 从属2:空闲 从3:3映射器基于C