新优化器SGDP+AdamP：减慢基于动量的优化器的权重增长

编辑：佚名日期：2024-03-04 12:33 / 人气：

论文：https://arxiv.org/pdf/2006.08217.pdf
代码：https://github.com/clovaai/AdamP

诸如batch normalization（BN）等正则化技术已导致深度神经网络性能的显著改善。先前的研究已经分析了梯度下降（GD）优化器所产生的权重尺度不变的好处：由于步长的自动调整，它导致了稳定的训练。但是，我们表明，结合基于动量的算法，尺度不变性往往会导致权重规范的过度增长。这反过来又过度抑制了训练过程中的有效步长，可能会导致深度神经网络中的次优表现。我们在理论和经验上都分析了这种现象。我们提出了一种简单有效的解决方案：在对尺度不变权重（例如，BN层之前的Conv权重）应用基于动量的GD优化器（例如SGD或Adam）的每次迭代中，我们都会删除径向分量（即与权重平行）向量）。直观地，该操作防止了沿径向的不必要的更新，该更新仅增加了重量标准而无助于损失的最小化。我们验证修改后的优化器SGDP和AdamP成功正则了norm增长并改善了广泛模型的性能。我们的实验涉及的任务包括图像分类和检索，目标检测，鲁棒性基准测试和音频分类。

使用方法，很简单，源码都已封装好，直接调用API替代原有优化器即可。
先安装：

其次调包使用：

后面有时间尝试一下效果。
好简单复制粘贴是不是？溜了溜了。。。。。。。。

-------------------------------------更新时间2020.06.23 23:05------------------------------------------------------
尝试了一下使用SGDP替代SGD，但是精度下降3，4个点。。。。。。。。。。。。。。。
说明还是要看数据集的。。

北京装修公司知名品牌电话：13988889999

新优化器SGDP+AdamP：减慢基于动量的优化器的权重增长

内容搜索 Related Stories

推荐内容 Recommended

天富注册 SERVICE

天富登录 CASE

现在致电 13988889999 OR 查看更多联系方式 →

现在致电 13988889999 OR 查看更多联系方式 →