1
我使用的Java API的Apache星火删除重复的,我有两个数据集& B. 这些两个模式是相同的:******中国,姓名,年龄,地址联盟星火SQL查询从数据集
有两个有******中国作为共同的数据集一个纪录,但这一纪录其他列不同
我运行下面这两个数据集的SQL查询(通过注册这些临时表):
A.createOrReplaceTempView("A");
B.createOrReplaceTempView("B");
String query = "Select * from A UNION Select * from B";
Dataset<Row> result = sparkSession.sql(query);
result.show();
令人惊讶的是,结果只有一个具有相同PhoneNumber的记录,另一个被删除。
我知道UNION是SQL查询的目的是删除重复,但它然后还需要知道主密钥的基础上,它决定什么是重复的。
此查询如何推断我的数据集的“主键”? (有没有在星火主键的概念)