2014-11-03 61 views
0

我正在运行流式作业,使用Python脚本进行映射和缩减。我用boto库创建的工作流程。ElasticMapReduce流式压缩输出

我正在使用gzip输入文件。但是,我怎样才能创建gzip输出文件?

回答

0

我使用java来处理gzip文件并以gzip压缩方式生成输出。我用下面的代码

FileOutputFormat.setCompressOutput(job, true); 
    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class); 
    FileOutputFormat.setOutputPath(job, output path)); 

我希望你会发现类似的API /代码在Python中。

您可以生成gzip文件作为生成的输出。通过'-D mapred.output.compress = true -D mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec'作为您的流式作业的选项。