2017-04-07 65 views
0

林在蔚蓝的机器学习线性回归玩和评价模型。评估线性回归(在Microsoft机器学习

林还是有点不确定什么评价各指标的含义和演出,所以希望得到一些修正,如果我是不正确

  1. 平均绝对误差:。平均残差(错误)
  2. 均方根误差:标准偏差残差有了这个,我可以看到如何发。从平均值/中位数我的绝对误差是。
  3. 相对绝对误差:显示相对误差和绝对误差之间百分比差异的百分比值。值越低越好,表明差异较小。
  4. 相对平方误差:平方误差相对于绝对平方。不确定这是什么给我的相对绝对误差。
  5. 确定系数:表示输入之间的相关性。 +1或-1表示完美关联,0表示无。
  6. 直方图显示了各种误差幅度的桶的频率。这显示了很多小错误。随着误差值增加频率降低,表明,如果考虑到上面差的指标,可能有一些sku或异常值对模型有很大的影响,使得它不太准确。

这些定义和假设是否正确?

enter image description here

回答

1

你在最点几乎是正确的。为了确保我们在相同的条件讲,背景一点点:

的线性回归使用上的一些结果变量y和自变量x1, x2, ..数据,并试图找到x1, x2, ..线性组合最能预测y。一旦建立了“最佳线性组合”,您就可以通过多种方式评估拟合的质量(即模型的质量)。你提到的六点都是回归方程质量的关键指标。

运行回归可为您提供多种“成分”。例如,对于结果变量,每个观察结果都会得到一个预测值。观测值y与预测值之间的差异称为残差或误差。残差可能为负数(如果y被高估)和正数(如果低估了y)。残差越接近零,效果越好。但是,什么是“接近”?您提供的指标应该能够提供一个洞察力。

  • 平均绝对误差:采用残差的绝对值并充分利用了平均。
  • 均方根误差:是残差的标准差。这将帮助你看到,传播是多大的残留。残差平方,因此高残差将计入多余的小残差中。低RMSE是好的。
  • 相对绝对误差:绝对误差作为结果变量y的实际值的一部分。在你的情况下,预测平均比实际值y高出/低于75%。

  • 相对平方误差:平方误差(residual^2)作为实际值的一部分。

  • 确定系数:几乎正确。这个范围在0到1之间,可以解释为解释y中自变量的解释能力。事实上,在你的情况下,自变量可以模拟y中38,15%的变化。另外,如果你只有一个独立变量,这个系数就等于平方相关系数。

均方根误差和确定系数是几乎所有情况下最重要的指标。说实话,我从来没有真正看到其他指标的报道。

+1

感谢您的回复。这有助于清理我脑海中的某些事情。 当评估模型是真正有用的信息时,通常会使用advic ethat RMSE和决定系数。 –