2012-03-27 164 views
1

我在某处读到Hadoop有一个内置的压缩​​和解压缩支持,但我想它是关于映射器输出(通过设置一些属性)?在Hadoop/PIG中压缩/解压gzip数据是否透明?

我想知道是否有任何特定的PIG加载/存储功能可用于读取压缩数据或以压缩格式输出数据?

回答

6

的PigStorage通过检查文件名处理压缩输入:

  • *操作.bz2/* .BZ - org.apache.pig.bzip2r.Bzip2TextInputFormat
  • 一切其他人使用org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat - 这扩展o.a.h.mapreduce.TextinputFormat可以。广州和敏捷的处理文件如果你有编解码器安装

输出通过一些属性来处理:

  • output.compression.enabled - 真/假
  • output.compression.codec - 要使用的编解码器的类名(org.apache.hadoop.io.compress.GzipCodec gzip的)

如果你觉得到它,通过PigStorage.java挖掘可能感兴趣的你

+0

http://my.safaribooksonline.com/book/-/9781449317881/8dot-making-pig-fly/id2907215也给出了一些关于中间压缩的更多细节 – 2012-03-27 20:37:52