2017-10-21 43 views
0

我试图创建一个新的列有条件地基于其他几列。这是我的数据。我正在尝试创造一年的差异列。计算列在其他列的条件r

> person <- c(rep("A", 4), rep("B", 1), rep("C",3), rep("D",1)) 
> score <- c(1,1,2,4,1,1,2,2,3) 
> year <- c(2017, 2016, 2015, 2014, 2015, 2017, 2015, 2014, 2017) 

此功能会找上一年度的数据针对此人,并从他们目前的得分得分。如果没有前一年的数据,则返回NA。所以对于我的数据,我会得到一个新的列“差异”,其值为0,-1,-2,NA,NA,NA,0,NA,NA。

很想看到dplyr的答案,但香草解决方案欢迎。

回答

2

通过使用dplyr

library(dplyr) 
df %>% 
    arrange(person, year) %>% 
    group_by(person) %>% 
    mutate(per = ifelse(year - lag(year) == 1, score - lag(score), NA)) %>% 
    arrange(person, -year) 

# A tibble: 9 x 4 
# Groups: person [4] 
    person score year per 
    <fctr> <dbl> <dbl> <dbl> 
1  A  1 2017  0 
2  A  1 2016 -1 
3  A  2 2015 -2 
4  A  4 2014 NA 
5  B  1 2015 NA 
6  C  1 2017 NA 
7  C  2 2015  0 
8  C  2 2014 NA 
9  D  3 2017 NA 
+0

介意通过语法走我?给一个男人一条鱼vs教一个男人去钓鱼.... – AZhao

+0

@AZhao哪一部分困惑了你? – Wen

+2

@AZhao意识到,你是一个Python用户,所以我的解释开始从蟒蛇R, 的r =滞后的Python shift' 的r = GROUP_BY Python的groupby' 的r = ifesle Python的np.where' 的r arrange = Python sort_values' – Wen