我使用Hadoop流,我启动脚本如下:Hadoop的流单映射
../hadoop/bin/hadoop jar ../hadoop/contrib/streaming/hadoop-streaming-1.0.4.jar \
-mapper ../tests/mapper.php \
-reducer ../tests/reducer.php \
-input data \
-output out
“数据” 是2.5 GB的txt文件。
但是在ps axf我只能看到一个映射器。我试着用-Dmapred.map.tasks = 10,但结果是一样的 - 单个映射器。
我该如何让hadoop分割我的输入文件并启动几个映射器进程?
你的2.5 GB的txt文件,它是gzip压缩?你是否在hadoop的伪实例上运行(并且只有一个map和reduce插槽)? –
文件没有gzipped,但是,我没有运行任何hadoop恶魔,也没有使用HDFS ... – Nick
试图在具有一个节点和相同结果的“真正”群集 - 单映射程序 – Nick