2016-10-28 30 views
2

根据一些旧的讨论(link1,link2),我认为'weight_decay'参数是权重L2损失的正则化参数。例如,在cifar10 solver中,weight_decay值是0.004。这是否意味着最小化的损失是“交叉熵+ 0.004 * sum_of_L2_Norm_of_all_weights”?是否有,“交叉熵+ 0.004/2 * sum_of_L2_Norm_of_all_weights”?咖啡重量衰减。它究竟如何使用?

回答

0

损失似乎是交叉熵+ 0.004/2 * sum_of_L2_Norm_of_all_weights。

望着官方朱古力实施AlexNet的,求解器文件(https://github.com/BVLC/caffe/blob/master/models/bvlc_alexnet/solver.prototxt)设置weight_decay = 0.0005,而在原来的AlexNet纸(http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf,第6页)梯度更新包括术语

-0.0005 * E * w_i

由于梯度是损耗的偏导数,并且损失的正规化成分通常表示为拉姆达* || ||瓦特^ 2,它好像

weight_decay = 2 * lambda