最近我研究了反向传播网络并做了一些手动练习。 之后,我想出了一个问题(也许没有意义):在遵循两种不同的替换方法时,有什么重要的事情: 1.增量式训练:一旦所有的三角翼Wij已知并且之前呈现下一个训练矢量。 2.批量训练:为每个样本训练矢量计算并存储delta Wij。但是,Delta Wij不会立即用于更新权重。体重更新是在训练时期结束时完成的。神经网络加权
我已经搜索了一段时间,但还没有找到任何结果。
最近我研究了反向传播网络并做了一些手动练习。 之后,我想出了一个问题(也许没有意义):在遵循两种不同的替换方法时,有什么重要的事情: 1.增量式训练:一旦所有的三角翼Wij已知并且之前呈现下一个训练矢量。 2.批量训练:为每个样本训练矢量计算并存储delta Wij。但是,Delta Wij不会立即用于更新权重。体重更新是在训练时期结束时完成的。神经网络加权
我已经搜索了一段时间,但还没有找到任何结果。
所以你指的是执行梯度下降学习的两种模式。在批处理模式下,权重矩阵的变化累积在整个训练数据集(一个'纪元');在线训练在呈现包括训练集的每个向量之后更新权重。
我认为,网络培训的优势在于优越性,因为它收敛速度更快(大多数研究报告的准确性没有明显差异)。 (见例如,兰德尔·威尔逊&托尼·马丁内斯,批培训的一般的效率欠佳的梯度下降学习,在神经网络(2003)。
为什么在线培训收敛速度快的原因是,它可以按照曲线每个历元上的误差表面,其实际意义在于你可以使用更大的学习速率(因此通过训练数据以较少的周期收敛)。
换句话说,批量训练的累积重量变化增加与训练集的大小相关联,结果是批次训练在每次迭代中使用大步骤,因此错过误差空间拓扑中的局部最小值 - 解算器振荡而不是收敛。
批处理培训通常是“默认”(最常用于ML教科书等),只要它在可接受的时间范围内收敛,使用它就没有任何问题。再次,性能差异(分辨率或分类精度)很小或可以忽略不计。
是的这两种方法是有区别的。得到计算的增量是输入矢量和网络权重的函数。如果您更改权重,则从下一个输入向量计算出的增量值将与您未更改权重的情况下不同。
因此,对于第一个输入向量,无论您选择哪种方法,都会计算相同的delta值。现在,对于连续方法,网络中的权重将改变,而在同时方法中,权重将保持现在不变。当呈现第二个输入矢量时,两种方法现在将产生不同的增量,因为两个网络之间的权重是不同的。
我认为你指的是批量与增量训练模式。 – Amro 2010-11-15 22:14:54