购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.4.6 学习率策略

学习率是优化时非常重要的一个因子,在训练过程中,学习率通常都会发生变化,越是在训练后期,学习率通常会变得越小,有助于收敛的稳定。

下面对常见的学习率策略进行详细介绍。

1.Fixed

Fixed即固定学习率策略,这是最简单的一种配置,只需要一个全局的学习率参数,并在整个优化过程中保持不变。这是不常使用的策略,因为随着向全局最优点逼近,学习率应该越来越小,这样才能避免不跳过最优点。

2.Step

Step是指按照固定步长对学习率进行调整,如图2.16所示,学习率每经过10000次迭代后降低为原来的0.1倍。

图2.16 Step学习率策略示意

Step属于非连续型的变换,策略简单,而且效果通常较好。

3.Multistep

Multistep是非均匀步长降低策略,需要指定每次降低学习率的间隔。如图2.17所示,初始学习率为0.01,经过在迭代次数为10000、30000、60000次的3次调整后,学习率变为原来的0.1。

4.Exp

Exp是一种指数变化策略。令基准学习率为Base lr ,新学习率为New br ,则更新方法如下。

可知,这是连续变化的,学习率的衰减是指数级的, γ 越大则衰减越慢。Caffe框架中直接使用了训练迭代次数iter作为指数,因为iter通常都是非常大的值,所以学习率衰减非常快。Exp是很常见的一种学习率策略,图2.18所示为不同 γ 值的Exp学习率曲线。

图2.17 Multistep学习率策略示意

图2.18 不同 γ 值的Exp学习率曲线

5.Inv

Inv是一种指数变换策略,令基准学习率为Base lr ,新学习率为New lr ,则更新方法如下。

参数 γ 控制曲线下降的速率,而参数power控制曲线在饱和状态下学习率达到的最低值。当初始学习率为0.01, γ =0.01,power分别为0.25和0.75时采用Inv策略所得的学习率变化如图2.19所示。

6.Poly

Poly是一种指数变换策略,令基准学习率为Base lr ,新学习率为New lr ,当前迭代次数为iter,最大迭代次数为maxiter,则更新方法如下。

图2.19 Inv学习率策略示意

参数power控制曲线的形状,当power=1时,学习率曲线为一条直线;当power<1时,学习率曲线是凸的,且下降速率由慢到快;当power>1时,学习率曲线是凹的,且下降速率由快到慢,如图2.20所示。

图2.20 Poly学习率策略示意

7.Sigmoid策略

Sigmoid策略是一种学习率曲线形状为Sigmoid函数的策略,令基准学习率为Base lr ,新学习率为New lr ,当前迭代次数为iter,学习率变更拐点为stepsize,则更新方法如下。

参数 γ 控制曲线的变化速率,图2.21展示了不同 γ 值下的学习率变化曲线。

除了以上学习率策略,还有一些较新的学习率策略,如Warmup,读者可以自行了解。

图2.21 Sigmoid学习率策略示意 sILRkvjjFJ5Iy4Bs7lIqpjpHqCx3TVqHy9cb4dRsEnQ1eHh0eKhuRdMuDXGFcZP5

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开