2014-06-18 39 views
1

我中的R 2个data.tables如下新的列:创建Data.Table使用行操作ř

DT_A与列siddatevalue1value2,其中sid是主键和date是辅助键。

DT_B有列siddate1date2date3,...,date12。这里sid是主键,因此每行对应于唯一的sid,其他列名称对应于DT_A中的辅助键。

欲另一列添加到DT_A其中第i行包含从表DT_B [sid_i,date_i]

下面是示例代码和所希望的输出的相应元素:

require(data.table) 
DT_A <- data.table(sid = c(1,2,3,4,5,1,3), 
        date = c("Jan 2012", "Feb 2012", "April 2012", "May 2012", 
          "Dec 2012", "Feb 2012", "Oct 2012"), 
        value1 = rep("1", 7), 
        value2 = rep("1", 7)) 

DT_B <- data.table(sid = as.character(c(1,2,3,4,5)), 
        "Jan 2012" = rep("1", 5), 
        "Feb 2012" = rep("2", 5), 
        "March 2012" = rep("3", 5), 
        "April 2012" = rep("4", 5), 
        "May 2012" = rep("5", 5), 
        "June 2012" = rep("6", 5), 
        "July 2012" = rep("7", 5), 
        "Aug   2012" = rep("8", 5), 
        "Sept 2012" = rep("9", 5), 
        "Oct 2012" = rep("10", 5), 
        "Nov 2012" = rep("11", 5), 
        "Dec 2012" = rep("12", 5)) 

#Set Keys 
setkey(DT_A, sid, date) 
setkey(DT_B, sid) 

#Define Function fun1 
fun1 <- function(x){ 
    tryCatch(DT_B[x[1], x[2], with=FALSE], error = function(e) NULL) 
} 

#Desired Output 
DT_A$newCol <- sapply(apply(DT_A, 1, fun1),"[[",1) 
DT_A 

尽管我目前的方法适用于这个小例子,但我的实际DT_A有2000万行。这种方法完全挂在那里。我们可以使用data.table或其他任何方法以更高效的方式进行此操作吗?

+0

您没有提供' DT_A' –

+0

对不起,现在已经做了 – user3750170

+0

我觉得应该重新编写这个问题。这不是关于做明智的行动,这是关于重塑和合并。 – geneorama

回答

3

融化你的第二data.table

library(reshape2) 

DT_B.melted = melt(DT_B, id.vars = 'sid', variable.name = 'date') 

一旦它融化,你既可以设置为相同的密钥,并做你的加入/转让/诸如此类的东西:

setkey(DT_B.melted, sid, date) 
setkey(DT_A, sid, date) 

DT_A[DT_B.melted, newCol := value] 
+0

我想你需要在熔化后添加'DT_B.melted [,sid:= as.numeric(sid)]',否则它会返回错误(对我来说至少) –

+0

@DavidArenburg你是对的 - 但我认为类错配只是OP中的一个错误(也就是说,在融化开始之前,它应该是固定的上游) – eddi

+0

哇...这就像一阵微风,我不知道熔化函数......非常感谢... – user3750170