2015-02-09 75 views
0

如果我知道要存储什么样的数据(考虑到压缩),是否有方法估计行大小?估计行大小HBase/HyperTable

我在看东西像

bson_id |字符串(最多200个字符)| int32 | int32 | int32 | bool | bool |日期时间|日期时间|日期时间| INT32

我试图找到约2万亿的记录,像上面的一个最好的解决方案数据库,大约结合X20像

bson_id | bson_id

欢迎任何其他建议

回答

0

排序为非常通用的答案。

据我所知,只有用虚拟数据进行测试才是衡量这种事情的可靠方法。这里的“虚拟”意味着虚假但不重复,因为强烈的重复可能会破坏压缩估计。

例如你可以放1m,2m,4m,8m,32m,128m等......记录和检查是否有任何线性依赖关系。如果它是线性的,你可以很容易地用数十亿和数万亿记录的一些偶然性外推值。

在这样的测试中,您还可以根据需要检查性能。例如,您可以增加HDFS的复制因子以提高读取性能。

最后你可以检查压缩的观点。

祝您好运BigData!