2

我有一个表,从中我得到的数据如下:获得通过日期排序行的具体数量为每个键

val all = sc.cassandraTable("keyspace","table") 
.select("key_name", "column1", "column2", "column3", "date") 
.as((i:String, p:String, e:String, c:Double, d:java.util.Date) => ((i), (c, p, e, d))) 

表是按日期排序。我想以某种方式获取数据,对于每个key_name我都会指定记录数。我不知道在cassandra表中查询是否可以实现,或者应该在从表中加载数据后完成。例如,我希望每个key_name都有五个最新记录,这些记录分组在某种排序后的集合中。

+0

我不确定cassandra连接器是否接受谓词下推。所以你可能想要加载数据,然后应用你的动作 – eliasah

+0

有一个'spanByKey()'额外的方法暴露的连接器。你可能会感兴趣:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/3_selection.md#grouping-rows-by-partition-key – doanduyhai

+2

@eliasah它的确如此。 – zero323

回答

相关问题