2016-03-17 31 views
2

我有一个表称为myTable(输入):排序表的唯一参数

user_name session_num 
1  "Joe"   1  
2  "Tom"   2  
3 "Fred"   1  
4  "Tom"   1  
5  "Joe"   2  
6  "John"   1 

我想知道有多少我user_id只有session_num = 1(输出):

user_name session_num 
1  "Fred"    1 
2  "John"    1 

回答

8

下面是使用data.table

library(data.table) 
setDT(df)[, if(all(session_num == 1)) .SD, by = user_name] 
# user_name session_num 
# 1:  Fred   1 
# 2:  John   1 

另一种选择是尝试反联接

df[session_num == 1][!df[session_num != 1], on = "user_name"] 
# user_name session_num 
# 1:  Fred   1 
# 2:  John   1 
+0

Thx它很棒! – Smasell

+0

您可能还想阅读[this](https://github.com/Rdatatable/data.table/wiki/Getting-started)以便更加舒适地使用'data.table' –

0

这是2行答案:

library(data.table) 
data1<-fread("test.csv") 
data1[user_name == names(which(table(data1$user_name)==1)),][session_num==1,] 

首先看看谁在数据集中只有一次,然后是其中的那些子集,其中session_num==1

+1

如果更换''==用'%在%''后你user_name'得到预期的结果。随着data.table(v1.9.6)的最新正式版本的发布,代码会引发错误。 – RHertel

+0

不确定这个答案使用了哪个'data.table'特定功能。 –

3

或者我们可以简单地排除具有比1其他会话号的所有用户可能的解决方案,使用base R.

# User's with session number other than 1 
two <- myTable$user_name[myTable$session_num != 1] 

# Exclude them 
myTable[!myTable$user_name %in% two,] 
# user_name session_num 
#3  Fred   1 
#6  John   1 
+1

有趣的是,我们想到了这漂亮很多同时。尽管我认为使用'!= 1'而不是'== 2'更安全,以涵盖所有可能性。 –

5

dplyr一个同类解决方案:

library(dplyr) 
myTable %>% 
    group_by(user_name) %>% 
    filter(all(session_num == 1)) 

这给:

user_name session_num 
    (fctr)  (int) 
1  Fred   1 
2  John   1 
+0

错误:找不到函数“%>%”(已安装dplyr) – Smasell

+0

您有哪个版本的'dplyr'?或者,也许你忘了加载'library(dplyr)'? (查看更新后的答案) – Jaap

+0

谢谢你的工作!最后一个问题 - 如何在桌子上得到这个结果? – Smasell