0
我想链接多个mapreduce作业,即先前的mapreduce作业的输出是下一个mapreduce作业的输入。由于我的输出非常大,磁盘IO过载非常重,所以我想寻找替代解决方案来减少IO瓶颈。我找到了ChainMapper/ChainReducer API。该文件提到了以下属性Hadoop ChainMapper和ChainReducer如何减少磁盘IO
“使用ChainMapper和ChainReducer类可以组成Map/Reduce作业,看起来像[MAP +/REDUCE MAP *]。这种模式的直接好处是大大减少了磁盘IO “。
但我不明白为什么使用ChainMapper/ChainReducer会减少磁盘IO。为了减少IO,我应该如何使用这两个API?