2016-12-04 36 views
1

这可能有一个简单的解决方案,但我仍然无法找到一个。我有两个矩阵,其中一个的大小为M1 =(4,2000000),另一个为M2 =(4,209)。我想找到M2的每列与M1的所有列之间的元素交集的长度。R中两个矩阵之间的元素交点

对于M2一个专栏中,我做的:

res <- apply(M1, 2, function(x) length(intersect(tmp, x))) 

其中TMP是M2的第一列。

这大概需要30秒。为了加快M2的所有列的计算,我做foreach:

list <- foreach(k=1:ncol(M2)) %dopar% { 

    tmp <- M2[,k] 
    res <- apply(M1, 2, function(x) length(intersect(tmp, x))) 
} 

这大约需要20分钟。

有没有办法避免这个使用apply函数的foreach循环?

谢谢!

+0

看来'tcrossprod(表(COL(M1),M1)> 0L,表(COL(M2),M2)> 0L)'是类似于你在做什么。因为你不关心出现的次数,可以用更有效的替换(矩阵(0L,ncol(M1),max(M1)),cbind替换table(col(M1),M1)> 0L' (rep(1:ncol(M1),each = nrow(M1)),c(M1)),1L)'或者甚至考虑使用考虑数据大小的稀疏矩阵 –

回答

3

有数据:

set.seed(991) 
M1 = matrix(sample(5, 50, TRUE), 5) 
M2 = matrix(sample(5, 25, TRUE), 5) 

您的解决方案回报:

op = sapply(1:ncol(M2), 
      function(k) apply(M1, 2, function(x) length(intersect(M2[, k], x)))) 
op 
#  [,1] [,2] [,3] [,4] [,5] 
# [1,] 3 1 3 2 3 
# [2,] 3 2 3 3 4 
# [3,] 2 2 2 2 3 
# [4,] 2 3 3 2 3 
# [5,] 2 2 3 1 2 
# [6,] 2 2 2 2 3 
# [7,] 2 3 3 2 3 
# [8,] 2 2 3 3 3 
# [9,] 2 2 3 3 3 
#[10,] 1 3 2 1 2 

这就是

ans1 = tcrossprod(table(col(M1), M1) > 0L, table(col(M2), M2) > 0L) 

回报。

all.equal(op, ans1, check.attributes = FALSE) 
#[1] TRUE 

因为我们不需要出现次数的数量,我们可以用简单的矩阵运算代替昂贵的呼叫table

m1 = matrix(0L, ncol(M1), max(M1)) 
m1[cbind(rep(1:ncol(M1), each = nrow(M1)), c(M1))] = 1L 

m2 = matrix(0L, ncol(M2), max(M2)) 
m2[cbind(rep(1:ncol(M2), each = nrow(M2)), c(M2))] = 1L 
ans2 = tcrossprod(m1, m2) 

all.equal(op, ans2) 
#[1] TRUE 

对于你的情况,似乎更适合通过使启动稀疏的表格,如果有机会的话,以避免内存约束上:

library(Matrix) 
sm1 = sparseMatrix(x = 1L, 
        i = rep(1:ncol(M1), each = nrow(M1)), 
        j = M1, 
        use.last.ij = TRUE) 
sm2 = sparseMatrix(x = 1L, 
        i = rep(1:ncol(M2), each = nrow(M2)), 
        j = M2, 
        use.last.ij = TRUE) 
ans3 = tcrossprod(sm1, sm2) 

all.equal(op, as.matrix(ans3), check.attributes = FALSE) 
#[1] TRUE 
+0

现在添加基准,以便每个人都能更好地欣赏你的真棒解决方案:P –

+1

@DavidArenburg:我无法避免'ncol(M1)*长度(unique.default(M1) )'制表可能会带来'无法分配内存'评论,将基准变成圣诞雪花...... :-) –

+0

是的,我想这是他矢量化解决方案的主要问题 - 与简单循环相比,它们不是内存有效的。 –

1

鉴于你的矩阵尺寸,你可以做到这一点应该会更快:

apply(m2, 2, function(x) colSums(m1==x[1] | m1==x[2] | m1==x[3] | m1==x[4])) 

例如,假设:

m1 

    [,1] [,2] [,3] 
[1,] 3 6 4 
[2,] 9 8 11 
[3,] 10 1 12 
[4,] 2 5 7 

m2 

    [,1] [,2] 
[1,] 3 6 
[2,] 2 7 
[3,] 1 5 
[4,] 8 4 

然后,它会给你:

 [,1] [,2] 
[1,] 2 0 
[2,] 2 2 
[3,] 0 2 

Upd大约吃了时间效率

所以总结一下,作为OP在评论中提到,

  • 天真for解决方案大约需要20 mins
  • 我的解决方案约需36 secs
  • 这@alexis_laz的约12 secs

为做同样的工作。

+1

Thanks @ 989!我还在36秒内给出了解决方案,并在我的数据集上尝试了解决方案。谢谢! – Andres

+1

@Andres很高兴知道。所以它比天真的解决方案快得多。最好多谢一个投票解决方案;) – 989

+1

对不起@ 989,我的不好!忘了投票:) – Andres