定制化设计一站式临时空间解决方案
高端产品行业领先进口生产线
核心技术装配式移动建筑系统
Adam优化器是目前应用最多的优化器,在训练的过程中我们有时会让学习率随着训练过程自动修改,以便加快训练,提高模型性能。关于adam优化器的具体实现过程可以参考这篇博客,或者更简洁一点的这篇博客,这里我只想简单介绍一下adam优化器里decay的原理。
在Keras的Adam优化器中各参数如下:
: 学习率
: 0到1之间,一般接近于1
: 0到1之间,一般接近于1,和一样,使用默认的就好
: 模糊因子,如果为空,默认为
: 学习率随每次更新进行衰减
: 布尔型,是否使用变体
下面我们来看看decay是如何发挥作用的:
写为数学表达式的形式为:
为了更好的观察学习率的衰减情况,我们将学习率lr的衰减过程画出来,lr取0.01,decay取0.01
如果我们自己定义学习率的衰减方法,keras为我们提供了两种方法进行自定义,详见博客(稍后整理)
返回