我有一个表称为myTable
(输入):排序表的唯一参数
user_name session_num
1 "Joe" 1
2 "Tom" 2
3 "Fred" 1
4 "Tom" 1
5 "Joe" 2
6 "John" 1
我想知道有多少我user_id
有只有session_num = 1
(输出):
user_name session_num
1 "Fred" 1
2 "John" 1
我有一个表称为myTable
(输入):排序表的唯一参数
user_name session_num
1 "Joe" 1
2 "Tom" 2
3 "Fred" 1
4 "Tom" 1
5 "Joe" 2
6 "John" 1
我想知道有多少我user_id
有只有session_num = 1
(输出):
user_name session_num
1 "Fred" 1
2 "John" 1
下面是使用data.table
library(data.table)
setDT(df)[, if(all(session_num == 1)) .SD, by = user_name]
# user_name session_num
# 1: Fred 1
# 2: John 1
另一种选择是尝试反联接
df[session_num == 1][!df[session_num != 1], on = "user_name"]
# user_name session_num
# 1: Fred 1
# 2: John 1
这是2行答案:
library(data.table)
data1<-fread("test.csv")
data1[user_name == names(which(table(data1$user_name)==1)),][session_num==1,]
首先看看谁在数据集中只有一次,然后是其中的那些子集,其中session_num==1
。
如果更换''==用'%在%''后你user_name'得到预期的结果。随着data.table(v1.9.6)的最新正式版本的发布,代码会引发错误。 – RHertel
不确定这个答案使用了哪个'data.table'特定功能。 –
或者我们可以简单地排除具有比1
其他会话号的所有用户可能的解决方案,使用base
R.
# User's with session number other than 1
two <- myTable$user_name[myTable$session_num != 1]
# Exclude them
myTable[!myTable$user_name %in% two,]
# user_name session_num
#3 Fred 1
#6 John 1
有趣的是,我们想到了这漂亮很多同时。尽管我认为使用'!= 1'而不是'== 2'更安全,以涵盖所有可能性。 –
Thx它很棒! – Smasell
您可能还想阅读[this](https://github.com/Rdatatable/data.table/wiki/Getting-started)以便更加舒适地使用'data.table' –