需要帮助理解使用Hadoop的小数据集的MR数据处理

请考虑以下假设的情况：

1) Input Data to be processed : 100 MB 
2) Block Size : 64 MB 
3) Replication Factor : 2 
4) Cluster Size : 2 (Data Node 1 and Data Node 2)

在数据节点中的数据1将被分割为64MB + 36MB（输入数据的总100MB）复制的数据将在数据节点2作为井（64 MB + 36 MB）

问：

请了解如何将64 MB和36 MB的数据进行处理帮助吗？只能从DataNode1处理整个数据。如果DataNode1出现故障，DataNode2将仅用于备份？

或

DataNode2是否也用于处理数据？如果需要更多解释，请告诉我。

是的，它会使用两个datanodes。因此，mappers的数量将总是等于拆分的数量（除非您使用属性或驱动程序代码来限制它）。详情请参阅this。

2015-01-10 07:18:09 SMA

这取决于。如果你有一个gzip文件作为输入，那么无论它有2个块，它将完全由单个节点上的单个映射器处理。如果您在两个datanodes上都运行YARN NM，则它们有足够的内存来启动2个映射器任务，并且群集很安静（没有其他任务正在运行），那么很可能两个映射器都将在同一节点上启动。

2015-01-12 17:53:37 0x0FFF

回答