2017-04-20 81 views

回答

0

使用像Adam或Adadelta或RMSProp这样的自适应梯度算法。我倾向于使用亚当,并总是与修剪渐变相结合。

自适应梯度算法具有每个参数的学习率。当你有一些参数可能更稀疏(提高其学习率)或不稀疏(降低其学习率)的模型时,这非常有用。如果您正在使用神经机器翻译等工具,这种稀疏性是一个问题。亚当在计算上更昂贵一些,但我们可以给出很好的结果。