我一直在寻找一种有效的方法来统计和删除数据框中的重复行,同时保留首次出现的索引。 举例来说,如果我有一个数据帧:R - 保留其首次出现索引的计数重复行
df<-data.frame(x=c(9.3,5.1,0.6,0.6,8.5,1.3,1.3,10.8),y=c(2.4,7.1,4.2,4.2,3.2,8.1,8.1,5.9))
ddply(df,names(df),nrow)
给我
x y V1
1 0.6 4.2 2
2 1.3 8.1 2
3 5.1 7.1 1
4 8.5 3.2 1
5 9.3 2.4 1
6 10.8 5.9 1
但我想保持复制行的原始指标(与该行的名字一起)。像:
x y V1
1 9.3 2.4 1
2 5.1 7.1 1
3 0.6 4.2 2
5 8.5 3.2 1
6 1.3 8.1 2
8 10.8 5.9 1
“复制” 返回原始rownames(此处{1 2 3 5 6 8}),但犯规数OCCURENCES的数量。我试着自己编写函数,但没有一个能够处理大数据。我的数据框可以有几百万行(尽管列通常是5到10)。
我想你从你的解决方案从重复的职位。我想知道为什么你没有仔细研究其余的解决方案。 –
我看过很多解决方案,但无法找到“保持重复的第一次出现”的地方。由于我无权在旧帖子中添加评论,并且在“答案”框中询问“问题”会出错,所以我必须创建一个新帖子。经过6天的努力,我问了这个问题。 – Ira
哦,我明白了。我没有注意到你也想要你的行名。 –