的t_id
和date
的细节在问题没有描述所以在(1)中,我们假设有最多3个t_id
值每email
和它们出现在对应于date1
,date2
和顺序date3
分别与所有其他date
值为NA。例如,如果特定电子邮件的值为2 t_id
,那么第一个将具有date1
作为日期,而date2
和date3
为NA。第二个将有date2
作为日期,date1
和date3
将是NA。在(2)中,我们假设相同,除了我们概括为k
而不是3。
没有使用包。
1)使用by
分裂上email
然后手动构造的行的每个。最后rbind
行在一起。
do.call("rbind",
by(DF, DF$email, function(x) {
t_id <- c(x$t_id, NA, NA, NA)[1:3]
date <- c(na.omit(c(x$date1, x$date2, x$date3)), NA, NA, NA)[1:3]
data.frame(email = x$email[1],
t_id1 = t_id[1], date1 = date[1],
t_id2 = t_id[2], date2 = date[2],
t_id3 = t_id[3], date3 = date[3]
)
}
))
,并提供:
email t_id1 date1 t_id2 date2
[email protected] [email protected] 100689822 2016-09-18 NA <NA>
[email protected] [email protected] 100732587 2016-11-01 NA <NA>
[email protected] [email protected] 100640340 2016-08-01 100641415 2016-08-02
[email protected] [email protected] 100678318 2016-09-05 100678319 2016-10-05
t_id3 date3
[email protected] NA <NA>
[email protected] NA <NA>
[email protected] NA <NA>
[email protected] NA <NA>
2)如果需要,我们可以概括这个高达k
日期和t_id
值。在这种情况下,rbind
/by
产生新的数据帧long
,其具有k
行,每个email
。每个email
的第一行long
对应于第一个tid
和date
等等直到第k个。 long
随后被重新整形。
is.date <- grepl("date", names(DF))
k <- sum(is.date)
long <- do.call("rbind",
by(DF, DF$email, function(x)
data.frame(email = x$email[1],
time = 1:k,
t_id = c(x$t_id, rep(NA, k))[1:k],
date = c(na.omit(do.call("c", x[is.date])), rep(NA, k))[1:k]
)
)
)
reshape(long, dir = "wide", idvar = "email")
,并提供:
email t_id.1 date.1 t_id.2 date.2 t_id.3 date.3
[email protected] [email protected] 100689822 2016-09-18 NA <NA> NA <NA>
[email protected] [email protected] 100732587 2016-11-01 NA <NA> NA <NA>
[email protected] [email protected] 100640340 2016-08-01 100641415 2016-08-02 NA <NA>
[email protected] [email protected] 100678318 2016-09-05 100678319 2016-10-05 NA <NA>
注:输入DF
在重现的形式被假定为:
Lines <- "t_id date1 date2 date3 email
100678318 2016-09-05 <NA> <NA> [email protected]
100678319 <NA> 2016-10-05 <NA> [email protected]
100732587 2016-11-01 <NA> <NA> [email protected]
100689822 2016-09-18 <NA> <NA> [email protected]
100640340 2016-08-01 <NA> <NA> [email protected]
100641415 <NA> 2016-08-02 <NA> [email protected]"
DF <- transform(read.table(text = Lines, header = TRUE, na.strings = "<NA>"),
date1 = as.Date(date1),
date2 = as.Date(date2),
date3 = as.Date(date3))
你想要一个宽幅,不长格式。也许[这篇文章](http://stackoverflow.com/questions/5890584/how-to-reshape-data-from-long-to-wide-format)将会有所帮助。 – lmo
谢谢改变了! –