咖啡重量衰减。它究竟如何使用？

根据一些旧的讨论（link1,link2），我认为'weight_decay'参数是权重L2损失的正则化参数。例如，在cifar10 solver中，weight_decay值是0.004。这是否意味着最小化的损失是“交叉熵+ 0.004 * sum_of_L2_Norm_of_all_weights”？是否有，“交叉熵+ 0.004/2 * sum_of_L2_Norm_of_all_weights”？咖啡重量衰减。它究竟如何使用？

来源

2016-10-28 A Das

损失似乎是交叉熵+ 0.004/2 * sum_of_L2_Norm_of_all_weights。

望着官方朱古力实施AlexNet的，求解器文件（https://github.com/BVLC/caffe/blob/master/models/bvlc_alexnet/solver.prototxt）设置weight_decay = 0.0005，而在原来的AlexNet纸（http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf，第6页）梯度更新包括术语

-0.0005 * E * w_i

由于梯度是损耗的偏导数，并且损失的正规化成分通常表示为拉姆达* || ||瓦特^ 2，它好像

weight_decay = 2 * lambda

来源

2017-02-19 16:06:19 liangjy

咖啡重量衰减。它究竟如何使用？

回答

相关问题