新优化器SGDP+AdamP:减慢基于动量的优化器的权重增长
编辑:佚名 日期:2024-03-04 12:33 / 人气:
论文:https://arxiv.org/pdf/2006.08217.pdf
代码:https://github.com/clovaai/AdamP
诸如batch normalization(BN)等正则化技术已导致深度神经网络性能的显著改善。先前的研究已经分析了梯度下降(GD)优化器所产生的权重尺度不变的好处:由于步长的自动调整,它导致了稳定的训练。但是,我们表明,结合基于动量的算法,尺度不变性往往会导致权重规范的过度增长。这反过来又过度抑制了训练过程中的有效步长,可能会导致深度神经网络中的次优表现。我们在理论和经验上都分析了这种现象。我们提出了一种简单有效的解决方案:在对尺度不变权重(例如,BN层之前的Conv权重)应用基于动量的GD优化器(例如SGD或Adam)的每次迭代中,我们都会删除径向分量(即与权重平行)向量)。直观地,该操作防止了沿径向的不必要的更新,该更新仅增加了重量标准而无助于损失的最小化。我们验证修改后的优化器SGDP和AdamP成功正则了norm增长并改善了广泛模型的性能。我们的实验涉及的任务包括图像分类和检索,目标检测,鲁棒性基准测试和音频分类。
使用方法,很简单,源码都已封装好,直接调用API替代原有优化器即可。
先安装:
其次调包使用:
后面有时间尝试一下效果。
好简单复制粘贴是不是?溜了溜了。。。。。。。。
-------------------------------------更新时间2020.06.23 23:05------------------------------------------------------
尝试了一下使用SGDP替代SGD,但是精度下降3,4个点。。。。。。。。。。。。。。。
说明还是要看数据集的。。
内容搜索 Related Stories
推荐内容 Recommended
- 2024张雪峰建议女生选的专业是什么 哪些好就业12-13
- 美国ECE申请及专业分支解析12-13
- 留学or考研|你要做好两手准备!12-13
- 英国哪些大学开设了一年制MBA专业?这些大学低成本高回报!12-13
- 留学推荐信英文范文_311-26