2013-02-01 34 views
0

我搜索了很多,我知道在每个地图任务中,当缓冲区的内容到达一个阈值时,一个线程根据数量减少来分割数据。减少数字的作用是什么这里?为什么在映射中发生分区?在排序后它如何帮助映射阶段?线程会将内容泄漏到磁盘。 它是如何发生的?我不能低估这里溢出的意思..... 谢谢。在地图缩小框架中的地图阶段实现

回答

0

Map需要将数据分区为reducer轮询,并从与reducer相关的每个mapper中提取所有数据。

如果您想象得到另一种方式 - 缩减器将每个映射的所有输出都拉出来,那么您会将从每个映射器输出的所有数据输出到每个reducer - 效率极低。

因此,通过在映射器中进行分区,reducer能够查询并拉回每个映射器需要减少的数据。