我有一个数据帧dfu
,对于每个id
成立(ID属于一个team
,team
有许多ids
)其中属性prop1
,prop2
等的一束是基于观察到的百分比样品在过去的一些研究中 - 这被用作未来研究的参考表。现在有来自新实验的数据给出了一组新的ids
。我需要通过使用dfu
中的参考数据来查找其中prop1
,prop2
等以每个team
为基准观察到的百分比样本。这可以通过在dfi
计算每id
出现的次数来完成,然后采取由team
.-不是所有的ID在dfu
分组可以存在和不存在于dfu
在dfi
可以存在一个或多个ID的加权平均。 dfu
中不存在的ID可能会从加权平均值中排除,因为每个属性值都不存在。申请分布新的采样集
dfu <- data.frame(id=1:6, team=c('A',"B","C","A","A","C"), prop1=c(0.8,0.9,0.6,0.5,0.8,0.9), prop2=c(0.2,0.3,.3,.2,.2,.3))
> dfu
id team prop1 prop2
1 A 0.8 0.2
2 B 0.9 0.3
3 C 0.6 0.3
4 A 0.5 0.2
5 A 0.8 0.2
6 C 0.9 0.3
>
> dfi <- data.frame(id=c(2 , 3 , 2 , 1 , 4 , 3 , 7))
> dfi
id
2
3
2
1
4
3
7
输出格式如下所示。例如,组A
的prop1
的值将是(0.8*1 + 0.5*1)/2 = 0.65
。
team prop1 prop2
A
B
C
更喜欢base R方法,其他方法欢迎。列数可能很多。
相关的问题在这里 - http://stackoverflow.com/q/42105259/3206440,可这是一个更具体的例子。 – user3206440
我怀疑你的set.seed(100)不符合数据。 – DJJ