2012-02-22 50 views
2

当我运行mapreduce时,我得到的结合输入记录大于地图输出记录吗?这真的很奇怪。我无法弄清楚到底发生了什么?据我所知,地图输出记录应该是相同的广告组合输入记录。任何人都可以请帮我找出问题。提前致谢。地图输出记录的数量少于合并hadoop中的输入记录

这是一个现实世界的工作例如:

Map-Reduce Framework 
     Map input records=112705844 
     Map output records=64841776 
     Combine input records=64842079 
     Combine output records=409 
     Reduce input records=106 
     Reduce output records=4 

回答

1

显然的行为组合如何应用于从Hadoop的0.18开始发生了变化。每个地图任务只需调用一次组合器之前。现在它可以在地图和减少方面被调用0次或更多次。这表明组合器输入/输出记录的计数不必完全匹配地图/减少输入/输出计数。