2011-01-15 65 views
7

我有两个dataframes,就像这些:加快数据帧匹配

data = data.frame(data=cbind(1:12,rep(c(1,2),6),rep(c(1,2,3),4))) 
colnames(data)=c('v','h','c') 

lookup = data.frame(data=cbind(c(rep(1,3),rep(2,3)),rep(c(1,2,3),2),21:26)) 
colnames(lookup)=c('h','c','t') 

我想从数据$ v,其中H和C柱的比赛中减去查找$吨。

我觉得像这样的工作

data$v-lookup$t[lookup$h==data$h&lookup$c==data$c] 

但不会奇迹般地知道,我想通过

我终于实现了这个

myt = c() 
for(i in 1:12) { 
myt[i] = lookup$t[lookup$h==data$h[i]&lookup$c==data$c[i]] 
} 
数据行隐式迭代

这工作正常,但我希望有人可以建议一个更合理的方式,不涉及循环。

回答

8

听起来像是你可以合并,然后做数学题:

dataLookedUp <- merge(data, lookup) 
dataLookedUp$newValue <- with(dataLookedUp, v - t) 

为了您的真实数据,是合并和计算速度更快?

如果数据和/或查找真的很大,您可以使用data.table在合并之前创建索引,以便加快速度。

4

对于你的整数列,我不认为你有什么可以改进JD的产品,但是如果你在合并的列中有字符串,你可以用as.factor创建因子,这可以加速merge取决于您的数据集的大小和多少合并/排序您预计:

data <- data.frame(v = 1:12, h = rep(c("one", "two"), 6), c = rep(c("one", "two", "three"), 4)) 
lookup <- data.frame(h = c(rep("one", 3), rep("two", 3)), c = rep(c("one", "two", "three"), 2), t = 21:26) 
data <- transform(data, h = as.factor(h), c = as.factor(c)) 
lookup <- transform(lookup, h = as.factor(h), c = as.factor(c)) 
temp <- merge(data, lookup) 
temp <- transform(temp, v.minus.t = v - t) 
+0

在现实中,他们都是字符串,因为我在创建数据帧可怕。谢谢! – ansate

+0

@ansate - FWIW,你可以用你的'stringsAsFactors'选项和'read.table'选项来修改默认情况下的字符串读入。默认值应该是读取字符串作为因素。 –

6

的替代方案,是1)更熟悉那些习惯于SQL查询和2)通常比标准的合并速度更快是使用sqldf包。 (请注意,在Mac OS X上,您可能需要安装Tcl/Tk,而sqldf依赖于它。)作为额外的好处,sqldf默认情况下会自动将字符串转换为因子。

install.packages("sqldf") 
library(sqldf) 
data <- data.frame(v = 1:12, h = rep(c("one", "two"), 6), c = rep(c("one", "two", "three"), 4)) 
lookup <- data.frame(h = c(rep("one", 3), rep("two", 3)), c = rep(c("one", "two", "three"), 2), t = 21:26) 
soln <- sqldf("select * from data inner join lookup using (h, c)") 
soln <- transform(soln, v.minus.t = v - t) 
+0

请注意,最后两行可以这样组合:'sqldf(“select *,v -t as'v.minus.t'from data join lookup using(h,c)”)' –

1

这是完美的data.table使用未经

library(data.table) 
data <- as.data.table(data) 
lookup <- as.data.table(lookup) 
setkey(data, h, c) 
setkey(lookup, h,c) 

data[lookup, list(v,t, newValue = v-t)]