2016-01-20 86 views
0

我有一个现有相当大的SQL Server数据库和一个分析应用程序,它使用它来根据用户输入执行数据聚合。例如,应用程序可以可视化查询,如 select ... group by Col1, Col2, Col3, Col4, Col5。用户然后可以切换列组,但是他们想要的,所以没有什么是静态的。Cassandra数据聚合

目前工作正常,但我们正在迅速获取更多数据,并且事情开始不起作用。

我们调查了Cassandra,并且出于多种原因想要朝那个方向移动,但不清楚如何允许用户以快速方式执行GROUP BY类型查询。

我们是否需要预先聚合所有数据组合?如果是这样,这听起来像我们可能需要x!组合这个工作。这可能是相当多的预先计算工作。 Spark可能会有所帮助,但我怀疑这将在整个集群中快速下滑。

+0

不是一个答案,但是这可能帮助:https://docs.datastax.com/en/latest-cql/ cql/cql_using/useCreateUDA.html –

回答

0

有在该组的JIRA BY子句,可能最终会在卡桑德拉: CASSANDRA-10707

与用户联合定义汇总和CASSANDRA-10783(允许UDF字面值),甚至有可能模拟GROUP BY。 .. HAVING XXX

这一切看起来非常有前途的,只要这些JIRA进入主干

+0

谢谢。目前看来,如果我想组合,那么我将不得不创建一个用户定义的聚合函数,并且数据都必须位于同一个分区中? – Telavian