2010-12-06 198 views
0
的选择/决策

我有了一些重复的行的data.frame,类似于这样的事情:优先基于行

con <- textConnection(Lines <- " 
First, Last, Address, Address 2, Email, Custom1, Custom2, Custom3 
A, B, C, D, [email protected],1,2,3 
A, B, C, D, [email protected],1,2,2 
A, B, C, D, [email protected],1,2,1 
") 
x <- read.csv(con) 
close(con) 

现在,当我去重复,以下列方式:

x <- x[!duplicated(x[,c("email")]),] 

你可以推荐一个方法来优先考虑那些包含Custom3 = 1的行吗?或者是否有更好的重复数据删除机制?

回答

1

尝试寻找重复之前排序:

X < - X [顺序(X [C( “特制3”)]),]
X < - X [复制(X [,C(”!电子邮件“)]),]

+0

好的建议,我甚至没有考虑排序顺序是一个因素,但它绝对有道理。 – 2010-12-07 00:16:28