我正在使用Cloudera Hadoop。我能够运行简单的mapreduce程序,我提供一个文件作为MapReduce程序的输入。Hadoop:提供目录作为MapReduce作业的输入
此文件包含要由映射器函数处理的所有其他文件。
但是,我被困在一个点上。
/folder1
- file1.txt
- file2.txt
- file3.txt
我怎么能指定输入路径的MapReduce程序为"/folder1"
,使之可以开始处理该目录内的每个文件?
任何想法?
编辑:
1)Intiailly,我提供的inputFile.txt作为输入到映射精简程序。它工作完美。
>inputFile.txt
file1.txt
file2.txt
file3.txt
2)但是现在,我不想给一个输入文件,我想在命令行上提供一个输入目录作为arg [0]。
hadoop jar ABC.jar /folder1 /output
你是如何提交/创建工作吗? –
检查编辑..... –
是的,就是这样工作,你的问题是什么? –