2
我正在R中编写Hadoop流式处理作业,而且我遇到了一个相当奇怪的情况,我找不到任何文档。我想运行一个减少工作(不需要映射器),直接传递给另一个映射器。没有初始映射器,是否可以在缩减作业之后直接堆叠地图作业?如果我编写一个身份映射器来将输出传递给我的reduce工作,那么我可以将reduce输出传递给另一个映射器,如果是这样,怎么办?我目前的代码是:Hadoop流式缩减器映射器
$HADOOP_HOME/bin/hadoop jar /opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar \
-reduce myreducer.r \
-input myinput/ \
-output myoutputdir \
-file file1.r \
-file file2.Rdata
而这不起作用。