Cassandra数据聚合

我有一个现有相当大的SQL Server数据库和一个分析应用程序，它使用它来根据用户输入执行数据聚合。例如，应用程序可以可视化查询，如 select ... group by Col1, Col2, Col3, Col4, Col5。用户然后可以切换列组，但是他们想要的，所以没有什么是静态的。Cassandra数据聚合

目前工作正常，但我们正在迅速获取更多数据，并且事情开始不起作用。

我们调查了Cassandra，并且出于多种原因想要朝那个方向移动，但不清楚如何允许用户以快速方式执行GROUP BY类型查询。

我们是否需要预先聚合所有数据组合？如果是这样，这听起来像我们可能需要x!组合这个工作。这可能是相当多的预先计算工作。 Spark可能会有所帮助，但我怀疑这将在整个集群中快速下滑。

来源

2016-01-20 Telavian

不是一个答案，但是这可能帮助：https://docs.datastax.com/en/latest-cql/ cql/cql_using/useCreateUDA.html –

有在该组的JIRA BY子句，可能最终会在卡桑德拉： CASSANDRA-10707

与用户联合定义汇总和CASSANDRA-10783（允许UDF字面值），甚至有可能模拟GROUP BY。 .. HAVING XXX

这一切看起来非常有前途的，只要这些JIRA进入主干

来源

2016-01-20 22:38:15 doanduyhai

谢谢。目前看来，如果我想组合，那么我将不得不创建一个用户定义的聚合函数，并且数据都必须位于同一个分区中？ – Telavian

Cassandra数据聚合

回答

相关问题