1
我有一个数据集,其中的每个条目的测量子集随机丢失:加快成对观察计数R中
dat <- matrix(runif(100), nrow=10)
rownames(dat) <- letters[1:10]
colnames(dat) <- paste("time", 1:10)
dat[sample(100, 25)] <- NA
我很感兴趣,在此数据集计算每一行之间的相关性(即AA ,ab,ac,ad,...)。但是,我想通过在结果相关矩阵中将其值设置为NA来排除少于5个非成对非NA观测值的相关性。
目前,我这样做如下:
cor <- cor(t(dat), use = 'pairwise.complete.obs')
names <- rownames(dat)
filter <- sapply(names, function(x1) sapply(names, function(x2)
sum(!is.na(dat[x1,]) & !is.na(dat[x2,])) < 5))
cor[filter] <- NA
然而,这种操作的实际数据集包含> 1000项非常缓慢。
是否有方法可以基于矢量化方式中的非NA成对观察数来过滤单元格,而不是在嵌套循环中?