感谢您对我的问题感兴趣。 在开始之前,我想告诉你,我对Hadoop & HBase很陌生。到目前为止,我发现Hadoop非常有趣,并希望在未来贡献更多。HBase键值压缩?
我主要对提高HBase的性能感兴趣。为此,我修改了HBase的/io/hfile/Hfile.java
中的Writer
方法,使其能够进行高速缓冲数据汇编,然后直接写入Hadoop,以便稍后由HBase加载。
现在,我试图想出一种方法来压缩键值对,以便可以节省带宽。我已经做了大量的研究来弄清楚如何;然后意识到HBase具有内置的压缩库。
我正在查看SequenceFile (1); setCompressMapOutput (2)(已弃用);和类压缩(3)。我还在Apache的MapReduce上找到了一个tutorial。
有人可以解释一下“SequenceFile”是什么,以及我如何实现这些压缩库和算法?这些不同的课程和文件对我来说非常混乱。
我真诚感谢您的帮助。
-
超链接:
(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
( 2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3):www.apache.org/dist/ hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html
+1 - 应该为大量用户提供信息 –