2012-12-02 95 views
0

我有一个很大的输入矩阵(4000x10000)。我使用dist()来计算它的欧几里德距离矩阵(大约需要5个小时)。
我需要为另一行(对于4001x10000矩阵)计算“相同”矩阵的距离矩阵。在不重新计算整个矩阵的情况下确定距离矩阵的最快方法是什么?重新计算距离矩阵

+1

你知道如何做,但不是在R或你不知道该怎么做吗? – carlosdc

+1

额外的行是额外的点还是额外的变量/维度? – flodel

回答

1

我假设你的额外的行意味着一个额外的点。如果它意味着一个额外的变量/维度,它会要求一个不同的答案。

首先,对于矩阵的欧氏距离,我建议使用fields包中的rdist函数。它是用Fortran编写的,比dist函数快很多。它返回一个matrix而不是dist对象,但您可以始终使用as.matrixas.dist从一个到另一个。

这里是(比你小)样本数据

num.points <- 400 
num.vars <- 1000 
original.points <- matrix(runif(num.points * num.vars), 
          nrow = num.points, ncol = num.vars) 

你已经计算出的距离矩阵:

d0 <- rdist(original.points) 

的额外点(S),你只需要计算距离额外点之间以及额外点与原始点之间的距离。我将使用两个加分证明的解决方案是由一般到任意数量的加分:

extra.points <- matrix(runif(2 * num.vars), nrow = 2) 
inner.dist <- rdist(extra.points) 
outer.dist <- rdist(extra.points, original.points) 

这样你就可以将它们绑定到你的更大的距离矩阵:

d1 <- rbind(cbind(d0, t(outer.dist)), 
      cbind(outer.dist, inner.dist)) 

让我们来看看它匹配什么一个完整的,长期rerun会产生:

d2 <- rdist(rbind(original.points, extra.points)) 

identical(d1, d2) 
# [1] TRUE 
+0

我试过用: mydist <-dist(original.points) mydist < - as.matrix(mydist) euc.dist <-function(x){ sqrt(sum((extra.point - x)^ 2)) } extra.dist <-apply(original.points,1,euc.dist) rbind(mydist,extra.dist) 我的问题是将多余的行绑定到类“dist” – sztup

+0

距离矩阵是一个方形矩阵。您最后只需添加一行,您还应该在末尾添加一列,并且右下角的值应为零(额外点与其自身之间的距离)。但请阅读我的解决方案... – flodel