2017-07-28 19 views
2

我学会了如何使用R对缺乏拟合的回归模型进行F检验,其中$ H_0 $:“这里没有缺乏拟合回归模型“。将R用于缺乏拟合的F检验

$$F_{LOF} = \frac{MSLF}{MSPE} = \frac{SSLF(\text{model})/df_1}{SSPE/df_2}$$

其中df_1是自由度SSLF(正方形的失拟-总和)和df_2为SSPE的自由度(由于纯误差平方和)。

Model 1: y ~ x1 + x2 
Model 2: y ~ factor(x1) * factor(x2) 
    Res.Df RSS Df Sum of Sq  F Pr(>F) 
1  19 18.122       
2  11 12.456 8 5.6658 0.6254 0.7419 

F-统计:0.6254用

在R,F检验(说与2个预测模型)可与

anova(lm(y~x1+x2), lm(y~factor(x1)*factor(x2)))

实施例输出来计算p值为0.7419。

由于p值大于0.05,我们不会拒绝$ H_0 $,表示没有缺乏适合度。因此,该模型是足够的。

我想知道的是为什么要使用2个模型以及为什么使用命令factor(x1)*factor(x2)?显然,从Model 2 12.456,是神奇 SSPE为Model 1

为什么?

+0

如果您有关于统计测试的问题,您应该在[stats.se]处询问;堆栈溢出网站是针对特定的编程问题。 – MrFlick

+0

感谢您的建议,我已被@ daniel-fischer [here](https://math.stackexchange.com/questions/2140676/using-r-for-lack-of-fit-test)授予许可重新问,因为原来没有收集任何答复或评论。 – hongsy

+0

相关问题是[这里](https://stats.stackexchange.com/questions/287532/r-lack-of-fit-test-via-anova) – hongsy

回答

1

您正在测试具有交互的模型是否会改善模型拟合。

模型1对应于x1x2的累加效应。

“检查”模型的复杂性是否足够的一种方法(在您的情况下,具有加性效应的多重回归是否对您的数据有意义)是将建议的模型与更灵活/复杂的模型进行比较。

您的模型2具有这种更灵活模型的作用。首先,预测变量被分类(通过使用factor(x1)factor(x2)),然后它们之间的交互由factor(x1)*factor(x2)构建。交互模型包括作为特例的可加模型(即,模型1嵌套在模型2中)并且具有几个额外参数以提供对数据的更好拟合。

您可以在anova的输出中看到两个型号之间参数数量的差异。模型2有8个额外的参数允许更好的拟合,但由于p值不重要,您可以得出结论:模型2(基于额外的8个参数具有额外的灵活性)实际上不能提供明显更好的拟合数据。因此,添加剂模型提供足够体面的拟合数据相比,模型2

注意,上面让类别(因素)的x1x2的伎俩只有真正工作时,当唯一值x1x2号低。如果x1x2是数字,并且每个人都有自己的值,那么模型2并没有那么有用,因为您最终得到的观察值与参数数量相同。在那些情况下,更多的ad hoc修改,如binning变量使用。

+0

哇!谢谢你回答一个问题,这个问题已经在数月内避免了math.stackexchange和stats.stackexchange!是否有可能“弄清”模型2的8个额外参数是什么? – hongsy

+0

是的,但这取决于数据('x1'和'x2'的层数)。您的模型1有3个平均参数(截距,beta_x1,beta_x2)。如果您输入'summary(model2)',您应该看到该模型中存在的参数,以便从那里获得要点 – ekstroem