我正在处理由多个问题(y1,y2,y3,...)的整数值响应和分配给每个应答者的加权计数组成的调查数据,如下所示:加权表格数据框与plyr
foo <- data.frame(wcount = c(10, 1, 2, 3), # weighted counts
y1 = sample(1:5, 4, replace=T), # numeric responses
y2 = sample(1:5, 4, replace=T), #
y3 = sample(1:5, 4, replace=T)) #
>foo
wcount y1 y2 y3
1 10 5 5 5
2 1 1 4 4
3 2 1 2 5
4 3 2 5 3
我想将其转换为加权表的统一数据框版本,第一列代表响应值,接下来的3列代表加权计数。
library(Hmisc)
ty1 <- wtd.table(foo$y1, foo$wcount)
ty2 <- wtd.table(foo$y2, foo$wcount)
ty3 <- wtd.table(foo$y3, foo$wcount)
bar <- merge(ty1, ty2, all=T, by="x")
bar <- merge(bar, ty3, all=T, by="x")
names(bar) <- c("x", "ty1", "ty2", "ty3")
bar[is.na(bar)]<-0
>bar
x ty1 ty2 ty3
1 1 3 0 0
2 2 3 2 0
3 3 0 0 3
4 4 0 1 1
5 5 10 13 12
我怀疑有与plyr和numcolwise或ddply这种自动化的方法:可以明确地列使用来完成。例如,以下内容即将结束,但我不确定还需要完成该任务:
library(plyr)
bar2 <- numcolwise(wtd.table)(foo[c("y1","y2","y3")], foo$wcount)
>bar2
y1 y2 y3
1 1, 2, 5 2, 4, 5 3, 4, 5
2 3, 3, 10 2, 1, 13 3, 1, 12
有什么想法?
嗨,你正在使用什么调查?这看起来像多重填补,需要'mitools' +'survey'包来获得正确的置信区间。 – 2014-10-03 21:12:23
我正在与环境影响评估等美国住宅能源消费调查(RECS)合作。很高兴看到有一个关于一切的包,谢谢参考! – Bryan 2014-10-04 00:38:42
这只是一个基于复制的调查。你试图重新发明轮子......你将有一个更容易的时间[复制他们的官方方法](http://www.eia.gov/consumption/residential/methodology/2009/pdf/using-microdata- 022613.pdf)如果您使用调查软件包。 :) – 2014-10-04 04:17:41