背景:,我试图来过滤,但不正确的分组都使其难以的R - dplyr总结和清洁用多组数据帧
我大的数据帧。想象一下,你有一个具有分层类别的杂货店的销售信息。香蕉出现3次:2次为“水果”,1次为“肉”。我知道实际上发生了“肉类”销售,所以我不想摆脱它,但它弄乱了我过滤的汇总数据(例如,我只想保留具有3个或更多实例的分组,但香蕉会消失)。
重现性实施例
x1 <- c('a','a','a','b','b','b')
x2 <- c(1,1,4,5,2,2)
x3 <- c(10,11,12,13,14,15)
df = data.frame(x1,x2,x3)
summarized = df %>%
group_by(x1, x2) %>%
summarize(Avg = mean(x3),
Times = n())
创建:
x1 x2 Avg Times
1 a 1 10.5 2
2 a 4 12.0 1
3 b 2 14.5 2
4 b 5 13.0 1
分组(A,1)发生超过(A,4),所以我知道(A,1)是正确的( (b,2)与(b,5)相同)。我在寻找我的数据帧成为:
x1 x2 Avg Times
1 a 1 11 3
2 b 2 14 3
x2
重要的是我保持,因为我的条件格式是基于(即,如果X2 == 1 & AVG < 10再落别人保持)。
我最好试图做平均/计数分开,然后加上最大的X2?提前致谢!
试着给出一致的例子。虽然描述你用“香蕉”,“肉”来解释它,但在你可重复的例子中,我没有找到它们。 –
我注意到你迄今在SO上提出的6个问题没有接受任何答案。请考虑接受解决您的疑问的答案。 –