Cassandra将其分区作为多行显示,但内部存储为宽行,这就是我想用Spark处理数据的方式。如何让Cassandra分区在Spark中感觉像一个宽行?
更具体一点,我会以某种方式获得Cassandra分区的RDD或这些分区的数据框。
然后,我愿做一个map
操作,并且在关闭,我想表达的是这样的:
row['parameter1']['value']/len(row['parameter2']['vector_value'])
伪代码只是为了让一个想法,一个简单的除法,并采取lenght的矢量。
我的表是
create table(
dataset_name text,
parameter text,
value real,
vector_value list<real>,
primary key(dataset_name, parameter));
我怎么能这样做efficiencly?与PySpark一起使用。
我想我需要类似Pandas set_index
。