2012-11-26 144 views
4

我想知道当我在Cassandra的列族中插入新列时,有多少字节完全存储在磁盘上。 我的主要问题是当我用Snappy压缩列时需要知道这些信息,我知道原始字节的计算,但是由于数据的可变性,我无法正确估计压缩比。 有关在Cassandra代码库中何处找到这些字节数量的任何信息都将受到欢迎。Cassandra压缩代码库

在此先感谢。

回答

2

压缩无法提供有保证的压缩比率。您可以获得的最好数据是样本数据的平均比率。

因此,获取样本数据的负载,将其插入测试实例并测量磁盘使用情况。

您可能会使用Snappy压缩很差的数据,实际上导致磁盘使用率超过存储原始字节数。

当涉及到的数据压缩有一个且只有一个规则:测量

+0

斯蒂芬,我一直在测试测量压缩,而事实上,也有一定的列,使磁盘占用率因为RLE压缩比较低。你已经证实了我的想法。我猜唯一的选择是使用统计测量,因为我相信压缩只发生在Cassandra冲洗时,不是吗? 再次感谢您。 – Amanda