深度学习详解最新章节_王琦著

2.2　优化问题

我们一般只会用梯度下降进行优化，这种优化方法存在很多的问题.比如可能会卡在局部最小值的地方，无法找到一个真的可以让损失很低的参数，如图2.3(a)所示.而图2.3(b)所示的蓝色部分是模型可以表示的函数所形成的集合，可以把代入不同的数值，形成不同的函数，把所有的函数集合在一起，得到这个蓝色的集合.在这个蓝色的集合里面，确实包含了一些损失较低的函数.但问题是，梯度下降法无法找出损失低的函数，梯度下降法旨在解决优化问题，找到就结束了，但对应的损失不够低.此时，到底是模型偏差还是优化的问题呢？找不到一个损失低的函数，到底是因为模型的灵活性不够，还是因为模型的灵活性已经够了，只是梯度下降过程没有达到预期？

图2.3　梯度下降法存在的问题

要回答上述问题，一种方法是，通过比较不同的模型来判断模型现在到底够不够大.举个例子，这个例子出自论文“Deep Residual Learning for Image Recognition” ^[1] .在测试集上测试两个网络，一个网络有20层，另一个网络有56层.图2.4(a)中的横轴代表训练过程，也就是参数更新的过程. 随着参数被更新，损失会越来越低，但结果是，20层网络的损失比较低，56层网络的损失还比较高.很多人认为这代表过拟合，即56层太多了，网络根本不需要这么深.但这不是过拟合，并不是所有结果不好的情况都叫作过拟合.在训练集上，20层网络的损失也是比较低的，而56层网络的损失比较高，如图2.4(b)所示，这代表56层网络的优化没有做好.

图2.4　残差网络的例子

Q：如何知道是56层网络的优化不好？为什么不是模型偏差？万一是因为56层网络的灵活性还不够呢？

A：比较56层网络和20层网络，20层网络的损失都已经可以做到这样了，56层网络的灵活性一定比20层网络的高.56层网络要做到20层网络可以做到的事情轻而易举，只要前20层的参数跟20层网络一样，剩下36层都复制前一层的输出就好了.如果优化成功，56层网络应该比20层网络得到更低的损失. 但结果并非如此，这不是过拟合，也不是模型偏差，因为56层网络的灵活性是够的，问题是优化做得不够好.

这里给大家的建议是，当看到一个从来没有见过的问题时，可以先尝试使用一些比较小的、比较浅的网络，甚至用一些非深度学习的方法，比如线性模型、 支持向量机（Support Vector Machine，SVM） . SVM可能是比较容易做优化的，它们不会有优化失败的问题.也就是说，这些模型会竭尽全力，在它们的能力范围之内，找出一组最好的参数.因此，可以先训练一些比较浅的网络，或者训练一些比较简单的模型，弄清楚这些简单的模型到底可以得到什么样的损失.

接下来还缺一个深的模型，如果深的模型跟浅的模型比起来，明明灵活性比较高，损失却没有办法比浅的模型压得更低，就说明优化有问题，需要用一些其他的方法来更好地进行优化.

举个例子，如图2.5 所示，2017年～ 2020年的数据组成训练集时，1层的损失是280，2层就降到180，3层就降到140，4层就降到100，但是5层的时候损失却变成340.损失很大显然不是模型偏差的问题，因为4层都可以降到100了，5层应该可以降至更低才对.这是优化的问题，优化做得不好才会造成这个样子.如果训练损失大，可以先判断是模型偏差还是优化的问题.如果是模型偏差的问题，就把模型变大.假设经过努力可以让训练数据上的损失变小，接下来可以看测试数据上的损失；如果测试数据上的损失也小，比这个较强的基线模型还要小，就结束.

图2.5　网络越深，损失反而变大

测试数据上的结果不好，不一定是过拟合.要把训练数据上的损失记下来，在确定优化没有问题、模型够大后，再看是不是测试的问题. 如果训练数据上的损失小，测试数据上的损失大，则有可能是过拟合.

2.2 优化问题

2.2　优化问题