2013-04-16 41 views
3

我有问题根据另外两个变量生成一个数字序列。 具体来说,我有以下的DB(我的真实DB不是那么平衡!):根据其他变量生成R中的数字序列

ID1=rep((1:1),20) 
ID2=rep((2:2),20) 
ID3=rep((3:3),20) 
ID<-c(ID1,ID2,ID3) 
DATE1=rep("2013-1-1",10) 
DATE2=rep("2013-1-2",10) 
DATE=c(DATE1,DATE2) 
IN<-data.frame(ID,DATE=rep(DATE,3)) 

,我想根据每个每个ID观察每个日期数生成数的序列,像这个:

OUTPUT<-data.frame(ID,DATE=rep(DATE,3),N=rep(rep(seq(1:10),2),3)) 

奇怪的是,我尝试了以下解决方案,适用于上面提供的DB,但不适用于真正的DB!

IN$UNIQUE<-with(IN,as.numeric(interaction(IN$ID,IN$DATE,drop=TRUE,lex.order=TRUE)))#generate unique value for the combination of id and date 
PROG<-tapply(IN$DATE,IN$UNIQUE,seq)#generate the sequence 
OUTPUT$SEQ<-c(sapply(PROG,"["))#concatenate the sequence in just one vector 

现在,我不明白为什么解不为真正的DB工作,一如既往任何提示,非常感谢!

在这里有该数据集的例子(包括只有一个ID):

id  date 
    1 F2_G 2005-03-09 
    2 F2_G 2005-06-18 
    3 F2_G 2005-06-18 
    4 F2_G 2005-06-18 
    5 F2_G 2005-06-19 
    6 F2_G 2005-06-19 
    7 F2_G 2005-06-19 
    8 F2_G 2005-06-19 
    9 F2_G 2005-06-20 

回答

5

下面是一个使用ave

OUT <- within(IN, {N <- ave(ID, list(ID, DATE), FUN=seq_along)}) 
+1

+1真的很棒的解决方案,我希望OP能够接受这个答案,因为它在输入数据变化时更加灵活。 –

+0

谢谢@Arun提供这个解决方案,所以基本上我在R中发现了另外两个有用的函数。我非常感谢所有成员的帮助! – stefano

+0

不幸的是,两种解决方案都不起作用...对于SimonO101解决方案R报告矢量的长度与数据库不匹配,而对于@Arun解决方案,R报告的不是有效因子。问题可能与日期的格式有关吗? – stefano

2

这应该做你想要的...

require(reshape2) 
as.vector(apply(dcast(IN , ID ~ DATE , length)[,-1] , 1:2 , function(x)seq.int(x))) 
[1] 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 
[27] 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 
[53] 3 4 5 6 7 8 9 10 

Bascially我们使用dcast得到通过ID和日期的观察次数如此

dcast(IN , ID ~ DATE , length) 
    ID 2013-1-1 2013-1-2 
1 1  10  10 
2 2  10  10 
3 3  10  10 

然后我们使用apply只要每个日期的ID计数,就可以在每个单元格中创建一个整数序列。最后我们用as.vector强制回到一个向量。

+0

非常感谢你@ SimonO101为解决方案的详细介绍!直到你的建议,我不知道包reshape2的dcast功能的存在!再一次,非常感谢! – stefano

+0

嗨stefano。没问题,但实际上你应该接受Arun的解决方案。我做了一个更复杂的数据集,其日期和ID变量的长度不同,我的解决方案需要进行一些修改才能使其正常工作(如果要将矢量绑定到原始数​​据框),但Arun的工作是完美的。请接受他的解决方案。干杯 –

相关问题