• 13988888888
  • youweb@qq.com
  • 广东省广州市番禺经济开发区
  • 定制化设计一站式临时空间解决方案

  • 高端产品行业领先进口生产线

  • 核心技术装配式移动建筑系统

公司新闻
   主页 > 公司新闻

Keras的Adam优化器decay理解及自适应学习率

作者:佚名  发布时间:2024-09-09 13:52  浏览:

Adam优化器是目前应用最多的优化器,在训练的过程中我们有时会让学习率随着训练过程自动修改,以便加快训练,提高模型性能。关于adam优化器的具体实现过程可以参考这篇博客,或者更简洁一点的这篇博客,这里我只想简单介绍一下adam优化器里decay的原理。

在Keras的Adam优化器中各参数如下:


: 学习率
: 0到1之间,一般接近于1
: 0到1之间,一般接近于1,和一样,使用默认的就好
: 模糊因子,如果为空,默认为
: 学习率随每次更新进行衰减
: 布尔型,是否使用变体

下面我们来看看decay是如何发挥作用的:


写为数学表达式的形式为:
lr=lr * \frac{1}{1+decay*iterations}
为了更好的观察学习率的衰减情况,我们将学习率lr的衰减过程画出来,lr取0.01,decay取0.01

lr=0.01,decacy=0.0001,iterations=500

从图中可以看到学习率会随着迭代次数增加而逐渐减小,这样可以在训练初期加快训练。

如果我们自己定义学习率的衰减方法,keras为我们提供了两种方法进行自定义,详见博客(稍后整理)

返回

平台注册入口