R中的子集多列 - 更优雅的代码？

我按照多个标准跨多个列对数据框进行子集化。我选择数据框中的行，其中包含三个不同列中任何一列中向量“条件”中定义的几个值中的任何一个。R中的子集多列 - 更优雅的代码？

我有一些可行的代码，但不知道有什么其他的（更优雅的？）方式来做到这一点。以下是我所做的：

criteria <-c(1:10) 
subset1 <-subset(data, data[, "Col1"] %in% criteria | data[, "Col2"] 
%in% criteria | data[, "Col3"] %in% criteria)

建议热烈欢迎。（我是一名R初学者，所以对你的建议非常简单的解释也非常受欢迎。）

来源

2012-03-09 user1257313

我不知道，如果你需要这里有两个apply电话：

# Data 
df=data.frame(x=1:4,Col1=c(11,12,3,13),Col2=c(9,12,10,13),Col3=c(9,13,42,23)) 
criteria=1:10 

# Solution 
df[apply(df [c('Col1','Col2','Col3')],1,function(x) any(x %in% criteria)),]

除非你想要做了很多列的，那么它可能是更具可读性说：

subset(df, Col1 %in% criteria | Col2 %in% criteria | Col3 %in% criteria)

来源

2012-03-09 22:16:24 nograpes

请注意，子集的手册页警告不要以编程方式使用它，因为它使用非标准评估 – richiemorrisroe 2012-03-10 10:54:26

我在帮助页面上阅读了谨慎小心，但我不知道它的含义。为什么“非标准评估”成为一个问题？就我而言，我只是将数据分段以创建一些描述性统计信息，所以我不认为“子集”会对我造成问题......但是在什么情况下会导致问题呢？谢谢。 – user1257313 2012-03-10 20:04:15

我使用DF而不是data作为示例。

DF[apply(apply(as.matrix(DF[c("Col1","Col2","Col3")]), 
       c(1,2), `%in%`, criteria), 
     1, any),]

对于这是什么故障做：

使指定列的矩阵，并在矩阵测试每个元素，如果它包含的标准之一。然后对于该矩阵的每一行，查看是否有任何行元素是TRUE。如果是这样，请保留原始数据集的相应行。

工作通过一个例子：

开始以虚拟数据：

DF <- data.frame(Col1=seq(1, by=2, length=10), 
       Col2=seq(3, by=3, length=10), 
       Col3=seq(7, by=1, length=10), 
       other=LETTERS[1:10])

它看起来像

> DF 
    Col1 Col2 Col3 other 
1  1 3 7  A 
2  3 6 8  B 
3  5 9 9  C 
4  7 12 10  D 
5  9 15 11  E 
6 11 18 12  F 
7 13 21 13  G 
8 15 24 14  H 
9 17 27 15  I 
10 19 30 16  J

拉出的兴趣只是列。

> as.matrix(DF[c("Col1","Col2","Col3")]) 
     Col1 Col2 Col3 
[1,] 1 3 7 
[2,] 3 6 8 
[3,] 5 9 9 
[4,] 7 12 10 
[5,] 9 15 11 
[6,] 11 18 12 
[7,] 13 21 13 
[8,] 15 24 14 
[9,] 17 27 15 
[10,] 19 30 16

检查每个条目相对于标准

> apply(as.matrix(DF[c("Col1","Col2","Col3")]), c(1,2), `%in%`, criteria) 
     Col1 Col2 Col3 
[1,] TRUE TRUE TRUE 
[2,] TRUE TRUE TRUE 
[3,] TRUE TRUE TRUE 
[4,] TRUE FALSE TRUE 
[5,] TRUE FALSE FALSE 
[6,] FALSE FALSE FALSE 
[7,] FALSE FALSE FALSE 
[8,] FALSE FALSE FALSE 
[9,] FALSE FALSE FALSE 
[10,] FALSE FALSE FALSE

测试如果任何一列的值都是TRUE

> apply(apply(as.matrix(DF[c("Col1","Col2","Col3")]), c(1,2), `%in%`, criteria), 1, any) 
[1] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE

用它来索引的原始数据帧。

> DF[apply(apply(as.matrix(DF[c("Col1","Col2","Col3")]), c(1,2), `%in%`, criteria), 1, any),] 
    Col1 Col2 Col3 other 
1 1 3 7  A 
2 3 6 8  B 
3 5 9 9  C 
4 7 12 10  D 
5 9 15 11  E

来源

2012-03-09 22:01:13

R中的子集多列 - 更优雅的代码？

回答

相关问题