1
我是hadoop和map缩小模型的新手,并试图让概念正确。mapreduce输入分割数量和mapper数量之间的关系hadoop
我首先想要了解输入分割的概念和映射器的数量是否正确。
我正在运行mapreduce wordcount程序,以下是我的问题。
1)如何确定输入分割? 我在2个不同大小的输入的同一集群上运行相同的程序。
file 1 : size 48mb. => i got number of splits:1 in log.
file 2: size 126mb => number of splits : 1
file 2 : size 126mb (executed in eclipse IDE) => number of splits: 4
不应该是126 MB文件的分割数等于2吗?因为我已经读过,块的大小是64 MB。所以它必须创建2个分割。
2)如何确定mappers的数量?我试图通过以下行来获取mappers的数量以了解mapreduce的工作流程。
conf.get("mapred.map.tasks")
它每次返回2。
3)分割数量和映射器数量之间是否有任何关系?
4)做以上事情取决于集群?伪分布式和其他集群还是不同?
谢谢。