2015-01-10 41 views
0

需要使用Hadoop帮助理解小数据集的MR数据处理。需要帮助理解使用Hadoop的小数据集的MR数据处理

请考虑以下假设的情况:

1) Input Data to be processed : 100 MB 
2) Block Size : 64 MB 
3) Replication Factor : 2 
4) Cluster Size : 2 (Data Node 1 and Data Node 2) 

在数据节点中的数据1将被分割为64MB + 36MB(输入数据的总100MB) 复制的数据将在数据节点2作为井(64 MB + 36 MB)

问:

请了解如何将64 MB和36 MB的数据进行处理帮助吗? 只能从DataNode1处理整个数据。如果DataNode1出现故障,DataNode2将仅用于备份?

DataNode2是否也用于处理数据? 如果需要更多解释,请告诉我。

回答

0

是的,它会使用两个datanodes。因此,mappers的数量将总是等于拆分的数量(除非您使用属性或驱动程序代码来限制它)。详情请参阅this

0

这取决于。如果你有一个gzip文件作为输入,那么无论它有2个块,它将完全由单个节点上的单个映射器处理。如果您在两个datanodes上都运行YARN NM,则它们有足够的内存来启动2个映射器任务,并且群集很安静(没有其他任务正在运行),那么很可能两个映射器都将在同一节点上启动。