2017-05-30 56 views
0

我有一个约561个元素的列表,每个元素都是一个列表,当调用时它看起来像一个矩阵。下面是从数据集的例子,R lapply访问列表中的元素并执行计算

structure(list(`111110` = structure(c(205, 4, 1, 6, 23, 0, 1, 
0, 0), .Dim = c(3L, 3L), .Dimnames = list(c("1", "4", "5"), c("1", 
"4", "5"))), `111120` = structure(c(181, 3, 4, 4), .Dim = c(2L, 
2L), .Dimnames = list(c("1", "4"), c("1", "4"))), `111130` = structure(c(71, 8, 3, 15, 114, 7, 6, 8, 56), .Dim = c(3L, 3L), .Dimnames = list(
c("1", "4", "5"), c("1", "4", "5"))), `111140` = structure(c(87, 
8, 9, 14), .Dim = c(2L, 2L), .Dimnames = list(c("1", "4"), c("1", 
"4"))), `111150` = structure(24, .Dim = c(1L, 1L), .Dimnames = list(
"1", "1")), `111160` = structure(48, .Dim = c(1L, 1L), .Dimnames = list(
"1", "1"))), .Names = c("111110", "111120", "111130", "111140", 
"111150", "111160")) 

各元素的列表的尺寸是1×1至6×6,我想为每个列表中的元素执行以下计算:

  1. 如果条目有一个名为“5”的列,那么我想总结列“5”中的条目,除了列“5”的最后一行中的条目之外。如果没有列“5”,那么计算应该是空白的。

  2. 如果条目有一个名为“5”的列,那么列“1”中的元素总和除外,第一个元素除外。如果关联的条目没有包含“5”作为其标题的列,则它应该是空白的。

  3. 采取的计算部分1和2,并将它们添加到一个数据帧包含唯一ID和从1计算和2

我曾尝试以下(基于所提供的答案如下图):

output <- c() 
for(x in names(trans.by.naics)) { 
    id <- x 
    count.entry.5 <- ifelse("5" %in% colnames(trans.by.naics[[x]]), 
          sum(trans.by.naics[[x]][1 :nrow(trans.by.naics[[x]]), 5]) - trans.by.naics[[x]][5,5], "") # sum down the first four rows of column "5" if it exists 
    count.entry.1 <- ifelse("5" %in% colnames(trans.by.naics[[x]]), 
        sum(trans.by.naics[[x]][1 : nrow(trans.by.naics[[x]]), 1]) - trans.by.naics[[x]][1,1], "") 
    thing <- data.frame(id, count.entry.5, count.entry.1) 
    output <- rbind(output, thing) 

} 

,但我得到以下运行我的代码:

Error in trans.by.naics[[x]][1:nrow(trans.by.naics[[x]]), 5] : 
    subscript out of bounds 

期望的输出如下所示:

 id count.entry.5 count.entry.1 
1 111110    1    5 
2 111120       3 
3 111130   14   11 
4 111140        
5 111150        
6 111160 

是否有一种很好的方法可以做到这一点,不会花太长时间?也许更加矢量化的方法? lapply方法?任何意见或帮助表示赞赏。谢谢!!

+1

https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example – AidanGawronski

+0

@AidanGawronski非常感谢我不知道'dput的力量'举例来说。 – jvalenti

回答

1
output <- c() 
for (x in names(data)) { 
    id <- x 
    if(sum(colnames(data[[x]]) %in% "5") == 1) { 
    calc1 <- sum(data[[x]][-nrow(data[[x]]), "5"]) 
    calc2 <- sum(data[[x]][-1, "1"]) 
    } else { 
    calc1 <- NA 
    calc2 <- NA 
    } 
    thing <- data.frame(id, calc1, calc2) 
    output <- rbind(output, thing) 
} 
+0

您的数据的第二个元素没有列“5”...所以输出不完全相同,但它会按照您的要求进行操作。 – AidanGawronski

+0

我不太理解这一行......'if(sum(colnames(data [[x]]%in%“5”)== 1' line。为什么总结列名? – jvalenti

+0

我问,因为在6×6的情况下,对于calc1的计算是不正确的,即使它在colnames [[data]]中有一个“5” - 它将列“5”的最后一行加起来 – jvalenti