2013-10-23 123 views
0

如果我有一个ID重复行,查找重复

我可以使用蜂巢与follwoing查询

create table dupe as select * from table1 group by id having count(*) > 1; 

我们可以执行使用猪相同功能的查找表?

如果是的话,有人可以帮助我吗?

回答

5

以下代码可以帮助您:

r1 = load ...; 
r2 = group r1 by id; 
r3 = foreach r2 generate COUNT(r1) as c, r1; 
r4 = filter r3 by c > 1; 
r5 = foreach r4 generate FLATTEN(r1); 
dump r5; 

然而,为了不保留。

+0

你可以使用rank函数,然后在最后按顺序排列,以便保持集合的顺序 –