根据一些旧的讨论(link1,link2),我认为'weight_decay'参数是权重L2损失的正则化参数。例如,在cifar10 solver中,weight_decay值是0.004。这是否意味着最小化的损失是“交叉熵+ 0.004 * sum_of_L2_Norm_of_all_weights”?是否有,“交叉熵+ 0.004/2 * sum_of_L2_Norm_of_all_weights”?咖啡重量衰减。它究竟如何使用?
2
A
回答
0
损失似乎是交叉熵+ 0.004/2 * sum_of_L2_Norm_of_all_weights。
望着官方朱古力实施AlexNet的,求解器文件(https://github.com/BVLC/caffe/blob/master/models/bvlc_alexnet/solver.prototxt)设置weight_decay = 0.0005,而在原来的AlexNet纸(http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf,第6页)梯度更新包括术语
-0.0005 * E * w_i
由于梯度是损耗的偏导数,并且损失的正规化成分通常表示为拉姆达* || ||瓦特^ 2,它好像
weight_decay = 2 * lambda
相关问题
- 1. 使用i18n.DataAnnotations。它究竟如何工作?
- 2. 究竟如何
- 3. 如何确保使用GPU的咖啡?
- 4. PatternPathMotion Android,它究竟做了什么以及如何使用它?
- 5. 使用JavaScript /咖啡d3.json
- 6. 使用proguard咖啡/ androidTest
- 7. 声音。它究竟如何工作?
- 8. IEEE 754:它究竟如何工作?
- 9. 咖啡如何访问ViewHolder
- 10. 如何防止咖啡中的重量更新
- 11. 如何使用1-dim向量作为咖啡的输入?
- 12. 人会究竟是如何重写CssResource
- 13. 究竟如何使用onDelete = “SET NULL” - Doctrine2
- 14. Android咖啡厅
- 15. ProgressBars和咖啡
- 16. JavaScript入咖啡
- 17. SAS:咖啡人?
- 18. 浓咖啡AmbiguousViewMatcherException
- 19. 咖啡和postDelayed
- 20. 。 $#咖啡脚本?
- 21. com对象究竟是什么,我该如何使用它?
- 22. streambuf究竟是什么?我如何使用它?
- 23. OpenAL:如何使用线性衰减?
- 24. 'reference'typedef究竟如何表现?
- 25. 如何在TensorFlow中为单个图层定义重量衰减?
- 26. 如何计算Keras中没有重量衰减的损失?
- 27. 如何重新调整咖啡中功能图的权重?
- 28. 我该如何用咖啡标记重写Backbone Marionette's Region?
- 29. 用咖啡标记敲除
- 30. 无法与咖啡