为什么我们需要时代？

在课程中，没有关于时代的东西，但实际上它们无处不在。如果优化器在一次传递中找到最佳权重，为什么我们需要它们？为什么模型会改进？为什么我们需要时代？

通常，只要你想优化你使用梯度下降。渐变下降有一个称为学习速率的参数。仅在一次迭代中，您不能保证梯度下降算法将以指定的学习速率收敛到局部最小值。这就是为什么你重新迭代梯度下降以更好地收敛。

它也是一个很好的做法，通过观察学习曲线来改变每个时代的学习率以获得更好的收敛性。

2017-03-10 19:08:54 Sarthak

为什么我们需要[训练多个时代]，如果优化器在一次发现中找到最佳的权重？

这在大多数情况下是错误的。梯度下降法（参见a list of them）通常不会在一个路径中找到最佳参数（权重）。事实上，我从未看到任何情况下甚至达到了最佳参数（除了构建的案例）。

一个时代由许多重量更新步骤组成。一个时代意味着优化器曾经使用过每个训练示例。为什么我们需要几个时代？因为梯度下降是迭代算法。它有所改进，但它只是以微小的步骤到达那里。它只使用很小的步骤，因为它只能使用本地信息。除了当前的位置之外，它没有关于函数的想法。

您可能想要阅读我的optimization basics博客文章的渐变下降部分。

2017-03-10 20:12:37

回答