2013-02-13 77 views
3

有谁知道用R中的调查数据估计Box-Cox多变量变换的方法吗?我不知道任何考虑到分层和集群(我正在使用的数据)的任何事情,但即使是考虑到概率权重的事情也会很棒。我主要担心的是,在应用概率权重时,一个或多个变量可能会发生变化,因此转换可能会发生根本性变化。也可能会对错误和Box-Cox算法等产生影响......但这超出了基本的理论确认方法。带调查数据的Box-Cox变换R

更新问题

R函数powerTransform的伟大工程,但我不认为对调查数据有什么呢。我认为Stata可以解决这个问题,但是Nick指出情况并非如此。处理采样权重的唯一Box-Cox转换似乎是this

您是否知道任何允许将单变量和多变量BoxCox变换应用于概率加权数据的R函数?

我没有任何数据,但我只是想知道是否有人找到了解决方案。我知道,当一个具体的例子给出了让人们欣赏...

单因素箱考克斯: 结果使用LM和svyglm(调查包),对象时为单变量箱考克斯返回。

library(survey) 
data(api) 
library(car) 
dstrat<-svydesign(id=~1,strata=~stype, weights=~pw, data=apistrat, fpc=~fpc) 
Sur<-svyglm(api00~mobility, design=dstrat) 
NotSur<-lm(api00~mobility, data=apistrat) 
powerTransform(Sur) 
powerTransform(NotSur) 

不过,我不认为,因为你得到了相同的结果NotSur(从苏尔不同),当您运行与调查对象的powerTransformation是正确

None<-svydesign(id=~1, weights=rep(1,nrow(apistrat)), data=apistrat,) 
Sur2<-svyglm(api00~mobility, design=None) 
powerTransform(Sur2) 

我甚至更少确定你将如何找到多元正态性,因为你必须使用实际数据,例如

summary(powerTransform(cbind(api00,mobility)~1,apistrat)) 
+0

您对Stata的声明不正确。 Stata命令'boxcox'(不是函数)不支持测量权重。无论任何人是否有权访问Stata的副本,请参见http://www.stata.com/help.cgi?boxcox。 'boxcox'中有一些重量的支持。我感到困惑的是,任何人都想完全采用任何Box-Cox程序的结果。它最适合表示可能的转换规模或非标识链接函数,它应该始终与您对数据和相关科学知道的内容保持一致。我不能评论R. – 2013-02-14 10:02:23

+0

尼克。感谢您的意见和链接。我已经更新了我的问题。 – Mercelo 2013-02-14 10:14:02

+0

http://rinantipodes.blogspot.com/2011/12/nutrient-intake-data-mixed-methods.html – 2013-02-16 13:43:59

回答

1

你给该链接似乎是在SAS是一个数据步骤中运行的用户定义函数。它应该可以重新编程方法为R.

如果你看一下建议SAS方法here,你会看到它使用proc transreg估计所需的功率转换。 SAS程序不接受调查权重。我不确定weight选项在那个处理器中做了什么see here

更新:我仔细看了一下你给出的第一个链接here。看来,权重是proc univariate正在做与激活weight选项,如果数据中包含的权重。但是,如果你从here细节为weight,你会看到的权重被用来操纵差异。我不确定你是否想用这个假设来运行你的数据。

+0

米歇尔,非常感谢您的关注(不幸的是,我不能投票您的答案,因为显然我没有有足够的学分)。 – Mercelo 2013-02-25 18:53:32

+0

_______我现在要做! – Mercelo 2013-04-01 14:17:03

+0

我还没有找到任何有关使用非线性混合方法进行加权的好参考。由于调查权重相对于样本大小趋于非常大,因此我担心对人内和人际差异的影响,因此权重创建的“重复”数量相对于样本而言非常大。考虑到产出分布也是加权的,我已经尝试过,并且未能找到适当处理权重的参考。 – Michelle 2013-04-02 20:04:57

0

使用权在你的链接SAS宏应该给出最优转型的好点估计,但很可能会给不合理的区间估计 - 因为数似然比不会有标准卡方分布。

缩放权重求和,以样本大小可能会得到一个大概-正确的时间间隔,但框&考克斯方法的适当的基于设计的类似物将需要“工作”似然比的采样分布(如用由AICanova调查方法:: svyglm)