需要使用Hadoop帮助理解小数据集的MR数据处理。需要帮助理解使用Hadoop的小数据集的MR数据处理
请考虑以下假设的情况:
1) Input Data to be processed : 100 MB
2) Block Size : 64 MB
3) Replication Factor : 2
4) Cluster Size : 2 (Data Node 1 and Data Node 2)
在数据节点中的数据1将被分割为64MB + 36MB(输入数据的总100MB) 复制的数据将在数据节点2作为井(64 MB + 36 MB)
问:
请了解如何将64 MB和36 MB的数据进行处理帮助吗? 只能从DataNode1处理整个数据。如果DataNode1出现故障,DataNode2将仅用于备份?
或
DataNode2是否也用于处理数据? 如果需要更多解释,请告诉我。