2016-04-24 42 views
0

我想要计算三维点之间的欧几里得距离,并将该距离作为附加列添加。我试图遍历行,像这样:在数据框中的相邻行之间执行计算

df1 <- as.data.frame(list('x'=1:5,'y'=(1:5)^2,'z'=6:10)) 

for (i in 2:nrow(df1)) { 
    df1$diff <- sqrt((df1$x[i,]-df1$x[i-1,])^2 - 
        (df1$y[i,]-df1$y[i-1,])^2 - 
        (df1$z[i,]-df1$z[i-1,])^2) 
} 

,但我得到的错误:

Error in df1$x[i, ] : incorrect number of dimensions 

我要去哪里错了?

+0

也许'sqrt(abs(Reduce(' - ',lapply(df1,function(x)(x-lag(x,default = x [1]))^ 2))))'或'c(0,sqrt (abs(Reduce(' - ',as.data.frame((sapply(df1,diff))^ 2)))))' – akrun

回答

2

的主要问题是,你是治疗x当索引时是一个类似数组的对象。即您正在使用x[row, col]索引,您应该使用x[element]

将结果插入到df1$diff时,还需要编入索引。你有欧几里得距离方程是错误的;你需要加起来的平方差,而不是减去它们。

df1 <- data.frame(list(x = 1:5, y = (1:5)^2, z = 6:10)) 
df1$diff <- NA 

for (i in 2:nrow(df1)) { 
    df1$diff[i] <- with(df1, sqrt((x[i] - x[i-1])^2 + 
           (y[i] - y[i-1])^2 + 
           (z[i] - z[i-1])^2)) 
} 

> df1 
    x y z  diff 
1 1 1 6  NA 
2 2 4 7 3.316625 
3 3 9 8 5.196152 
4 4 16 9 7.141428 
5 5 25 10 9.110434 

你并不需要为这个循环,虽然,你可以依靠R上做元素乘元素的操作,因此这样做在一个单一的步骤:

df1 <- data.frame(list(x = 1:5, y = (1:5)^2, z = 6:10)) 
df1$diff <- c(NA, sqrt(rowSums((df1[-1, 1:3] - df1[-5, 1:3])^2))) 

df1 

> df1 
    x y z  diff 
1 1 1 6  NA 
2 2 4 7 3.316625 
3 3 9 8 5.196152 
4 4 16 9 7.141428 
5 5 25 10 9.110434 

你可能会如果你真正的问题很大,想要用df1强制执行此操作,因为数据帧非常慢。

m1 <- as.matrix(df1[, 1:3]) 
m1 <- cbind(m1, diff = c(NA, sqrt(rowSums((m1[-1, 1:3] - m1[-5, 1:3])^2)))) 

> m1 
    x y z  diff 
[1,] 1 1 6  NA 
[2,] 2 4 7 3.316625 
[3,] 3 9 8 5.196152 
[4,] 4 16 9 7.141428 
[5,] 5 25 10 9.110434 

你可以用这个进入使用head()tail()所以你do't功能需要担心的原始数据有多少行有:

myEuc <- function(x) { 
    if (isdf <- is.data.frame(x)) { 
    x <- data.matrix(x) 
    } 
    dij <- c(NA, sqrt(rowSums((tail(x, -1) - head(x, -1))^2))) 
    x <- cbind(x, diff = dij) 
    if (isdf) { 
    x <- as.data.frame(x) 
    } 
    x 
} 

df1 <- data.frame(list(x = 1:5, y = (1:5)^2, z = 6:10)) 
myEuc(df1) 

> myEuc(df1) 
    x y z  diff 
    1 1 6  NA 
[2,] 2 4 7 3.316625 
[3,] 3 9 8 5.196152 
[4,] 4 16 9 7.141428 
[5,] 5 25 10 9.110434 
+0

谢谢你,谢谢你在这个等式中捕捉到我非常愚蠢的错误。 –

+1

谢谢。你可以做到这一点没有循环。给我一秒钟,我会发布更简单的代码。 –

0

您的新变量有一个比你少data.frame的意见,所以你需要添加一个NA到顶部或载体的底部:

df1 <- as.data.frame(list('x'=1:5,'y'=(1:5)^2,'z'=6:10)) 

myVec <- numeric(nrow(df1)) 
myVec[1] <- NA 
for (i in 2:nrow(df1)) { 
myVec[i] <- sqrt((df1[i,"x"]-df1[i-1,"x"])^2 + 
       (df1[i,"y"]-df1[i-1,"y"])^2 + 
       (df1[i,"z"]-df1[i-1,"z"])^2) 
} 

df1$diff <- myVec 
+0

我在第一部分出现错误myVec < - ... '。我将“df”更改为“df1”,但得到错误“向量中的错误(nrow(df1)):vector:无法创建模式'​​5'的向量。” –

+0

@Adam_G我认为我从第一轮的草率修改了“许多”错别字。 – lmo

1

这里是另一种选择

sqrt(Reduce('+',lapply(df1, function(x) (x- lag(x, default=x[1]))^2))) 
#[1] 0.000000 3.316625 5.196152 7.141428 9.110434 

c(0,sqrt(rowSums((sapply(df1, diff))^2))) 
#[1] 0.000000 3.316625 5.196152 7.141428 9.110434