我正在学习Cassandra作为我为其中一个涉及大数据的项目之一的SQL数据库的替代方法。在单个请求中查询Cassandra上的拆分分区
为了学习的目的,我一直在观看DataStax提供的视频,更具体地说是涵盖了Cassandra中的建模数据的DS220。
在课程系列中观看videos之一时,我介绍了分割分区以管理分区大小的概念。
我目前的理解是Cassandra的每个分区的最大逻辑容量是2B条目,但每个分区的建议最大值为几百MB。
我目前正在处理大量必须存储的实时财务数据(时间序列),这意味着我可以在一天内轻松填写GB值为数据的数据。
视频课程介绍了如何引入额外的分区键以便按目的拆分分区或减小每个分区的大小要求。 视频指出使用基于时间的密钥或任意“桶”密钥,该密钥在达到可管理行数时递增。考虑到这一点,这导致我遇到以下问题:鉴于分区键仅用作相等条件(即指向分区以查找记录),我如何查找所有最终存在的记录分散在多个分区而不必指定存储桶或时间戳密钥?
例如,我可能会在一天内收到1M条记录,这可能会超过100-500Mb的分区限制,因此我无法按日期设置分区,这意味着我的日常数据将被分解为小时分区,或者分解为“分区”分区(用于平衡分区大小)。这意味着我所有的日常数据将分布在多个分区分割中。
鉴于这种情况,我该如何去查询特定日期的所有记录? (其他集群密钥可能包含我想要获得结果的符号,或者我希望该特定日期的所有记录)
任何帮助将不胜感激。
谢谢。