2013-07-29 60 views
0

我想创造我正在为一个客户端,包括卡桑德拉为大规模的写吞吐量负载的数据库基准测试的平台。 存储大量指标(时间序列)用于存储和计算每个指标应存储为CQLTable/Column系列。
第一个问题是,创建它们全部(〜10M指标)需要几天时间(运行一个4节点的culster)。 我尝试使用executemany(python cql)进行填充,但“服务时间”的延迟大致相同。 任何人都可以建议一个更好的方式来做到这一点?卡桑德拉创建表/ CF延迟

回答

0

每个你不应该创建一个单独的列族 - 10M列族是太多太多,因为有固定的每个CF的拍摄资源

你可能会更好地把它们放在一个单一的CF.您可以将度量标准名称添加为组合主键的组件,例如

create table metrics (
    metric text, 
    day timestamp, 
    time timestamp, 
    value text, 
    primary key ((metric, day)) 
); 

day字段在那里按天划分度量标准,因此它们不会在给定度量标准的同一行中结束。