2017-03-10 218 views
0

在课程中,没有关于时代的东西,但实际上它们无处不在。 如果优化器在一次传递中找到最佳权重,为什么我们需要它们?为什么模型会改进?为什么我们需要时代?

回答

0

通常,只要你想优化你使用梯度下降。渐变下降有一个称为学习速率的参数。仅在一次迭代中,您不能保证梯度下降算法将以指定的学习速率收敛到局部最小值。这就是为什么你重新迭代梯度下降以更好地收敛。

它也是一个很好的做法,通过观察学习曲线来改变每个时代的学习率以获得更好的收敛性。

0

为什么我们需要[训练多个时代],如果优化器在一次发现中找到最佳的权重?

这在大多数情况下是错误的。梯度下降法(参见a list of them)通常不会在一个路径中找到最佳参数(权重)。事实上,我从未看到任何情况下甚至达到了最佳参数(除了构建的案例)。

一个时代由许多重量更新步骤组成。一个时代意味着优化器曾经使用过每个训练示例。为什么我们需要几个时代?因为梯度下降是迭代算法。它有所改进,但它只是以微小的步骤到达那里。它只使用很小的步骤,因为它只能使用本地信息。除了当前的位置之外,它没有关于函数的想法。

您可能想要阅读我的optimization basics博客文章的渐变下降部分。