2014-02-23 141 views
1

我想通过r平方值比较三个模型的曲线拟合。我使用nlsdrc软件包运行模型。不过,似乎这两个软件包都没有计算r平方值;但他们给出了“残差标准误差”和“残差平方和”。比较非线性回归模型

这两个可以用来比较模型拟合吗?

+1

您不应该使用r-squared比较模型。事实上,我有点怀疑为什么你想比较不同的非线性模型。非线性建模的模型选择最好基于问题的科学。 – Roland

+0

@Roland我在比较藻类物种的两种生长模型。所以我想看看哪一个更好地解释了增长数据(由实验室实验产生)。对不起,我没有清楚地解释这个问题。 – Learner

回答

9

这的确是一个问题的统计数据,而不是编码的问题:考虑张贴stats.stackexchange.com;你很可能会得到更好的答案。

RSQ对于非线性回归没有意义。这就是为什么summary.nls(...)不提供它。有关说明,请参阅this post

有一个共同的,可理解的,倾向希望有一个单一的统计,允许一个评估哪些一组模型更好的拟合的数据集。不幸的是,它不会那样工作。这里有一些要考虑的事情。

  1. 一般情况下,最好的模式是具有托底机制之一。你的模型是否反映了一些物理过程,或者你只是在尝试一堆数学方程,并希望得到最好的结果?前一种方法几乎总是会导致更好的模型。
  2. 你应该考虑如何使用模型。你会插值吗(例如,在你的数据集的范围内估计y | x),还是要外推(估计你的数据范围之外的y | x)?有些模型产生的结果略微超出数据集范围,而其他模型则完全崩溃。
  3. 有时,您所拥有的数据类型会提示适当的建模技术。例如,如果您有数据可以计算某些东西,那么y可能是泊松分布的,并且可以指出泊松族中的广义线性模型(glm)。如果您的数据是二元的(例如,只有两种可能的结果,成功或失败),则表示二项式glm(所谓的逻辑回归)。
  4. 最小二乘技术的关键假设是y中的误差通常以均值0和常数方差分布。我们可以通过查看标准化残差与y的关系图,并通过查看残差的正态Q-Q图来进行测试。如果残差图显示散点随着y增大或减小,那么模型就不太好。如果正常Q-Q曲线不接近一条直线,则残差不是正态分布的,可能会显示不同的模型。
  5. 有时某些数据点对于给定的模型具有很高的杠杆作用,这意味着拟合受到这些点的不适当影响。如果这是一个问题,您会在杠杆图中看到它。这表明一个弱模型。
  6. 对于给定模型,可能并非所有参数都与0有显着差异(例如,系数的p值> 0.05)。如果是这种情况,您需要探索没有这些参数的模型。对于nls,这通常意味着完全不同的模型。
  7. 假设你的模型通过了上面的测试,看看适合的F统计量是合理的。这基本上是回归中的自由度(R)和残差(E)的SSR/SSE比率。具有更多参数的模型通常具有更小的残余SS,但是这不会使其成为更好的模型。 F统计量考虑到这一点,具有更多参数的模型将具有更大的回归自由度和更小的剩余自由度,使得F统计量更小。
  8. 最后,考虑到上面的项目,你可以考虑残余标准误。一般来说,其他所有东西都相等,残差标准误差越小越好。麻烦的是,所有其他的东西都是从来没有相等。这就是为什么我会建议最后查看RSE。
+0

感谢@jlhoward的详细回复。这真的很有帮助。关于模型,是的,他们解释物理过程。我正在研究藻类生长动力学。我只是想比较两种增长模型,看看哪一种更适合实验数据,因此可以更好地预测水体中的增长。 再次感谢! – Learner