我在笔记本电脑上构建了一个本地群集(伪模式)。我在哪里运行不同的mapreduce命令,如我可以像在本地群集上一样在EMR上运行作业
hadoop-streaming -D mapred.output.compress=true \
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-files my_mapper.py,my_reducer.py \
-mapper my_mapper.py \
-reducer my_reducer.py \
-input /aws/input/input_warc.txt \
-output /aws/output
现在我必须在EMR上运行它。有两个选项可以使用,一个是控制台,另一个是aws cli。我想要像上面那样运行精确的命令。为此,我想如果我使用EMR master,那么我应该可以运行这个命令。这是一种正确的方式,还是有这种进步的缺点?