1
我在某处读到Hadoop有一个内置的压缩和解压缩支持,但我想它是关于映射器输出(通过设置一些属性)?在Hadoop/PIG中压缩/解压gzip数据是否透明?
我想知道是否有任何特定的PIG加载/存储功能可用于读取压缩数据或以压缩格式输出数据?
我在某处读到Hadoop有一个内置的压缩和解压缩支持,但我想它是关于映射器输出(通过设置一些属性)?在Hadoop/PIG中压缩/解压gzip数据是否透明?
我想知道是否有任何特定的PIG加载/存储功能可用于读取压缩数据或以压缩格式输出数据?
的PigStorage通过检查文件名处理压缩输入:
org.apache.pig.bzip2r.Bzip2TextInputFormat
org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat
- 这扩展o.a.h.mapreduce.TextinputFormat
可以。广州和敏捷的处理文件如果你有编解码器安装输出通过一些属性来处理:
output.compression.enabled
- 真/假output.compression.codec
- 要使用的编解码器的类名(org.apache.hadoop.io.compress.GzipCodec
gzip的)如果你觉得到它,通过PigStorage.java挖掘可能感兴趣的你
http://my.safaribooksonline.com/book/-/9781449317881/8dot-making-pig-fly/id2907215也给出了一些关于中间压缩的更多细节 – 2012-03-27 20:37:52