我有两个不同行数和列数的数据框:每个数据框都有一个日期间隔。 df有一个额外的列表示某种属性。我的目标是在某些条件下从df(带有属性)中将信息提取到df2。程序应该如下:重叠间隔的匹配列(lubridate)
对于df2的每个日期区间,检查df中是否有与df2的区间重叠的区间。如果是,则在df2中创建一个表示与df的重叠间隔匹配的属性的列。可以有多个属性与特定的df2区间相匹配。
我创造了我的数据下面的例子:
library(lubridate)
date1 <- as.Date(c('2017-11-1','2017-11-1','2017-11-4'))
date2 <- as.Date(c('2017-11-5','2017-11-3','2017-11-5'))
df <- data.frame(matrix(NA,nrow=3, ncol = 4))
names(df) <- c("Begin_A", "End_A", "Interval", "Attribute")
df$Begin_A <-date1
df$End_A <-date2
df$Interval <-df$Begin_A %--% df$End_A
df$Attribute<- as.character(c("Attr1","Attr2","Attr3"))
### Second df:
date1 <- as.Date(c('2017-11-2','2017-11-5','2017-11-7','2017-11-1'))
date2 <- as.Date(c('2017-11-3','2017-11-6','2017-11-8','2017-11-1'))
df2 <- data.frame(matrix(NA,nrow=4, ncol = 3))
names(df2) <- c("Begin_A", "End_A", "Interval")
df2$Begin_A <-date1
df2$End_A <-date2
df2$Interval <-df2$Begin_A %--% df2$End_A
这将导致这些数据帧:
DF:
Begin_A End_A Interval Attribute
2017-11-01 2017-11-05 2017-11-01 UTC--2017-11-05 UTC Attr1
2017-11-01 2017-11-03 2017-11-01 UTC--2017-11-03 UTC Attr2
2017-11-04 2017-11-05 2017-11-04 UTC--2017-11-05 UTC Attr3
DF2:
Begin_A End_A Interval
2017-11-02 2017-11-03 2017-11-02 UTC--2017-11-03 UTC
2017-11-05 2017-11-06 2017-11-05 UTC--2017-11-06 UTC
2017-11-07 2017-11-08 2017-11-07 UTC--2017-11-08 UTC
2017-11-01 2017-11-01 2017-11-01 UTC--2017-11-01 UTC
我所需的数据帧看起来像这样:
Begin_A End_A Interval Matched_Attr
2017-11-02 2017-11-03 2017-11-02 UTC--2017-11-03 UTC Attr1;Attr2
2017-11-05 2017-11-06 2017-11-05 UTC--2017-11-06 UTC Attr1;Attr3
2017-11-07 2017-11-08 2017-11-07 UTC--2017-11-08 UTC NA
2017-11-01 2017-11-01 2017-11-01 UTC--2017-11-01 UTC Attr1;Attr2
我已经查看了int_overlaps()函数,但无法“扫描另一列的所有间隔” - 部分工作。 如果是,是否有任何解决方案利用tidyr环境?
非常感谢对于回答!我是否可以将上述过程适用于我想要循环运行的另一个(字符)列的情况?假设df和df2中的新列被称为“ID”,并且我只想在ID匹配的情况下运行该过程? –
你的意思是什么样的匹配?你能举一个简单的例子吗?如果df2ID [1] == df $ ID [1],那么计算Matche_Attr?或者类似的东西? –
是的。 “如果df2ID [1] == df $ ID [1]”是条件。在dplyr设置中,我只会使用group_by(ID),但我不知道如何将其转换为我们在此处使用的循环。 –