0
删除重复我有一个卡桑德拉表XYX与列( ID UUID, 插入时间戳, 标题文本)而不洗牌火花
其中ID和插入物是复合主键。
我正在使用Dataframe和我的火花外壳我正在提取id和标题列。 我想根据ID和标题列有不同的行。
我看到很多的混洗不是这种情况,因为Spark Cassandra连接器可以确保给定Cassandra分区的所有行都在同一个spark分区中。
提取后我使用dropDuplicates获取不同的记录。