深度学习之模型设计：核心算法与案例实践最新章节_言有三著

学习率是优化时非常重要的一个因子，在训练过程中，学习率通常都会发生变化，越是在训练后期，学习率通常会变得越小，有助于收敛的稳定。

下面对常见的学习率策略进行详细介绍。

1．Fixed

Fixed即固定学习率策略，这是最简单的一种配置，只需要一个全局的学习率参数，并在整个优化过程中保持不变。这是不常使用的策略，因为随着向全局最优点逼近，学习率应该越来越小，这样才能避免不跳过最优点。

2．Step

Step是指按照固定步长对学习率进行调整，如图2.16所示，学习率每经过10000次迭代后降低为原来的0.1倍。

图2.16 Step学习率策略示意

Step属于非连续型的变换，策略简单，而且效果通常较好。

3．Multistep

Multistep是非均匀步长降低策略，需要指定每次降低学习率的间隔。如图2.17所示，初始学习率为0.01，经过在迭代次数为10000、30000、60000次的3次调整后，学习率变为原来的0.1。

4．Exp

Exp是一种指数变化策略。令基准学习率为Base _lr ，新学习率为New _br ，则更新方法如下。

可知，这是连续变化的，学习率的衰减是指数级的， γ 越大则衰减越慢。Caffe框架中直接使用了训练迭代次数iter作为指数，因为iter通常都是非常大的值，所以学习率衰减非常快。Exp是很常见的一种学习率策略，图2.18所示为不同 γ 值的Exp学习率曲线。

图2.17 Multistep学习率策略示意

图2.18 不同 γ 值的Exp学习率曲线

5．Inv

Inv是一种指数变换策略，令基准学习率为Base _lr ，新学习率为New _lr ，则更新方法如下。

参数 γ 控制曲线下降的速率，而参数power控制曲线在饱和状态下学习率达到的最低值。当初始学习率为0.01， γ =0.01，power分别为0.25和0.75时采用Inv策略所得的学习率变化如图2.19所示。

6．Poly

Poly是一种指数变换策略，令基准学习率为Base _lr ，新学习率为New _lr ，当前迭代次数为iter，最大迭代次数为maxiter，则更新方法如下。

图2.19 Inv学习率策略示意

参数power控制曲线的形状，当power=1时，学习率曲线为一条直线；当power＜1时，学习率曲线是凸的，且下降速率由慢到快；当power＞1时，学习率曲线是凹的，且下降速率由快到慢，如图2.20所示。

图2.20 Poly学习率策略示意

7．Sigmoid策略

Sigmoid策略是一种学习率曲线形状为Sigmoid函数的策略，令基准学习率为Base _lr ，新学习率为New _lr ，当前迭代次数为iter，学习率变更拐点为stepsize，则更新方法如下。

参数 γ 控制曲线的变化速率，图2.21展示了不同 γ 值下的学习率变化曲线。

除了以上学习率策略，还有一些较新的学习率策略，如Warmup，读者可以自行了解。

图2.21 Sigmoid学习率策略示意