2013-02-22 17 views
1

我想使用Hadoop Map/Reduce来处理delimited协议缓冲区文件,这些文件使用LZO以外的东西进行压缩,例如, xzgzip。 Twitter的大象鸟图书馆似乎主要支持阅读LZO压缩的protobuf文件,因此似乎不符合我的需求。有没有现成的图书馆或标准方法来做到这一点?如何使用LZO以外的压缩方式处理Hadoop Map/Reduce中的协议缓冲区文件?

注:你可以通过我的选择的压缩算法看,这是没有必要的解决方案,使protobuf的文件可分开你的答案甚至不需要指定特定的压缩算法,但应该允许。对于我提到的那些中的至少一个)

回答

1

你可能想看看进入RAgzip补丁Hadoop的用于处理多个任务的地图为大gzip压缩文件:RAgzip