C *中的时间序列建模很简单,但如果您想添加一些粒度,该怎么办?Suss时间序列数据的Cassandra数据模型
我们有一个表,看起来像
CREATE TABLE sales (
c_id text,
purchased_at timestamp,
revenue_cents integer,
PRIMARY KEY (channel_id, purchased_at)
);
现在,我们想选择在最近365天所做的所有销售和造粒时间设置为一个星期。我们可以在前端进行总结,但是就我们选择的成千上万行来说,这似乎是一种不良行为,尤其是在选择速度最重要的情况下。
一个简单的例子:
在我们sales
表我们插入以下销售
INSERT INTO sales (c_id, purchased_at, revenue_cents) VALUES (1, '2014-12-15 07:01:00', 200);
INSERT INTO sales (c_id, purchased_at, revenue_cents) VALUES (1, '2014-12-17 08:01:00', 400);
INSERT INTO sales (c_id, purchased_at, revenue_cents) VALUES (1, '2014-12-24 20:01:00', 400);
INSERT INTO sales (c_id, purchased_at, revenue_cents) VALUES (1, '2014-12-16 10:01:00', 600);
这些可以是几千销售的每一天,所以如果我们想作过多少收入是怎么做的图表在过去的一年中,用这样的查询:
SELECT revenue_cents FROM sales WHERE c_id='1' AND purchased_at > '2014-01-01 00:00:00';
我们会得到像百万行,这是不够快。我们也不知道每次销售时的信息,我们只需要在第225天(或第44周或第6个月)获得多少信息。因此,如果我们将运行上面的查询并按月按某种方式进行分组,我们将返回11/12行,并且所有revenue_cents都会被整理。我知道C *无法做到这一点,但不知何故,这可以,对吧?
因此,我的问题是如何实现这个目标?
嗨,感谢您的答复,但是就我而言,我们仍然会选择数千行而不是每小时只有几行,对吧? – 2014-11-22 23:13:30
嗨迈克尔Hirn,抱歉,答案是不够的。我想我不明白你的问题,并添加了一个例子。希望一些讨论导致解决方案。 – catpaws 2014-11-23 01:13:08
感谢您的回复如此之快,我用一个例子更新了问题,并且现在问题如何变得更加清晰。 – 2014-11-23 10:05:40