1
我试图将20k文件批量加载到hbase表中。平均文件大小为400kb。但是有些文件大到70MB。所有文件放在一起的总大小是11GB。 该方法是标准的,在loadIncremenalFiles调用之后发送键值对。 当我运行10个文件的随机样本代码时,一切正常。我注意到生成的hfiles的大小是文件本身大小的1.3倍。 但是,当我为所有20k文件运行相同的代码时,我得到的hfiles放在一起的大小为400gb。数据本身的36倍。 除了表格数据之外,HFiles还包含索引和元数据,但即使如此,什么可以解释如此巨大的尺寸增加?hbase批量加载中的奇怪行为