长格式功能

可能重复：
faster way to create variable that aggregates a column by id 长格式功能

我有一个项目的麻烦。我创建了一个长格式的数据框（称为dat）（我复制下面的前3行），并且我想计算2000年到2011年美国所有银行的税前收入的平均值。我将如何去做？我在R方面几乎没有任何经验。如果答案太明显，我很抱歉，但我找不到任何东西，而且我已经花了很多时间在这个项目上。先谢谢你！

KeyItem  Bank Country Year Value 
1 Pretax Income WELLS_FARGO_&_COMPANY UNITED STATES 2011 2.365600e+10        
2 Total Assets WELLS_FARGO_&_COMPANY UNITED STATES 2011 1.313867e+12        
3 Total Liabilities WELLS_FARGO_&_COMPANY UNITED STATES 2011 1.172180e+12

来源

2012-11-02 MarMarko

欢迎来到SO，这个问题在此之前已经被询问了很多次。尝试http://stackoverflow.com/questions/8225621/faster-way-to-create-variable-that-aggregates-a-column-by-id例如 – mnel

欢迎来到SO。 @mnel是正确的 - 关于聚合的问题已经在这里多次提出。对于您的问题，您必须同时汇总和分类您的数据。您可以稍后汇总第一个和子集，或者，如果您的数据集非常大，则先选择子集，然后汇总（这是我在答案中演示的内容，但不是那么喜欢通过实验远离您学习的乐趣）。此外，作为您的必读书籍，这里的大多数用户通常会对[可重现的示例]做出更快速的响应（http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example）。 – A5C1D2H2I1M1N2O1R2T1

下面应该让你开始。你基本上需要做两件事：子集和聚合。我将演示一个基本的R解决方案和一个data.table解决方案。

首先，一些样本数据。

set.seed(1) # So you can reproduce my results 
dat <- data.frame(KeyItem = rep(c("Pretax", "TotalAssets", "TotalLiabilities"), 
           times = 30), 
        Bank = rep(c("WellsFargo", "BankOfAmerica", "ICICI"), 
          each = 30), 
        Country = rep(c("UnitedStates", "India"), times = c(60, 30)), 
        Year = rep(c(2000:2009), each = 3, times = 3), 
        Value = runif(90, min=300, max=600))

让我们从“国家”和“年”“税前”值的总平均值，但只适用于2001年至2005年

aggregate(Value ~ Country + Year, 
      dat[dat$KeyItem == "Pretax" & dat$Year >= 2001 & dat$Year <=2005, ], 
      mean) 
#   Country Year Value 
# 1   India 2001 399.7184 
# 2 UnitedStates 2001 464.1638 
# 3   India 2002 443.5636 
# 4 UnitedStates 2002 560.8373 
# 5   India 2003 562.5964 
# 6 UnitedStates 2003 370.9591 
# 7   India 2004 404.0050 
# 8 UnitedStates 2004 520.4933 
# 9   India 2005 567.6595 
# 10 UnitedStates 2005 493.0583

下面是data.table

同样的事情

library(data.table) 
DT <- data.table(dat, key = "Country,Bank,Year") 
subset(DT, KeyItem == "Pretax")[Year %between% c(2001, 2005), 
    mean(Value), by = list(Country, Year)] 
#   Country Year  V1 
# 1:  India 2001 399.7184 
# 2:  India 2002 443.5636 
# 3:  India 2003 562.5964 
# 4:  India 2004 404.0050 
# 5:  India 2005 567.6595 
# 6: UnitedStates 2001 464.1638 
# 7: UnitedStates 2002 560.8373 
# 8: UnitedStates 2003 370.9591 
# 9: UnitedStates 2004 520.4933 
# 10: UnitedStates 2005 493.0583

来源

2012-11-02 12:15:06 A5C1D2H2I1M1N2O1R2T1

当然，你也会做类似的子集，以获得美国的银行。 – A5C1D2H2I1M1N2O1R2T1

回答

相关问题