0
我有一个mapreduce作业,它只包含mapper。我希望这项工作能够为每个输入记录输出一个单独的文件(其名称来自输入记录)。我怎样才能做到这一点?如何在映射器中为每个输入记录输出一个单独的文件?
我有一个mapreduce作业,它只包含mapper。我希望这项工作能够为每个输入记录输出一个单独的文件(其名称来自输入记录)。我怎样才能做到这一点?如何在映射器中为每个输入记录输出一个单独的文件?
这不是如何设计映射器接口,但没有任何东西阻止你在映射器代码内部打开文件并在该文件中写入内容。
您可能需要更新某些计数器(使用reporter.incrCounter()),以便Hadoop知道您的代码正在执行某些操作,因为您不会调用output.collect()。