深度学习与大模型基础最新章节_段小手著

4.3 基于梯度的优化方法

在深度学习中，我们训练模型以最小化某个损失函数。这个损失函数通常表示预测输出与真实输出之间的差异，因此我们可以使用优化算法来最小化该损失函数。在这一节中，我们一起学习相关的知识。

4.3.1 损失函数

损失函数是指在机器学习模型中用来衡量预测值和实际值之间差异的一种函数。通常，我们希望预测值尽可能地接近实际值，而损失函数可以度量这种“接近程度”的大小。

在机器学习中，我们会根据训练集的数据来调整模型的参数，以使损失函数的值最小化。这个过程被称为模型的优化。因此，选择合适的损失函数对于衡量机器学习模型的性能非常重要。

图4-3 损失函数，就像是你停车的位置与教练指定位置之间的距离

举个生活中的例子——想象一下你正在学习开车。你的教练让你在一个没有其他车辆的空旷停车场里练习倒车入库。教练告诉你，要尽可能将车停到指定的位置上。

在这个例子中，你需要找到一种衡量你停车表现的方式。如果你将车停到了正确的位置上，那么你的停车表现就很好，反之则不好。损失函数就是一种衡量你停车表现的方式。如果你的停车位置和指定位置之间的距离越小，那么损失函数的值就越低；而如果距离越大，损失函数的值就越高，就像图4-3所示的这样。

类比到机器学习中，模型的预测值就相当于你在停车场里停车的位置，而实际值就相当于教练指定的停车位置。这时我们可以通过定义一个损失函数来衡量模型的预测值和实际值之间的差异。如果损失函数的值越小，则说明模型的预测值和实际值之间的差异越小，模型的性能就越好。

原理输出4.3

为了更好地理解什么是损失函数，请大家在ChatGPT的帮助下录制一个长度约为2分钟的短视频，介绍损失函数的概念。

小贴士

可以参考的ChatGPT提示词如下。

“什么是损失函数？”

“请用通俗易懂的语言，结合生活中的例子，介绍什么是损失函数。”

实操练习4.3

为了让大家可以用代码的形式学习损失函数的概念，接下来大家可以让ChatGPT生成示例代码，并在Colab新建一个Notebook文件运行这些代码。

小贴士

要让ChatGPT生成代码，可以参考的提示词如下。

“请用Python演示损失函数，需要可视化。”

4.3.2 梯度下降

为了使损失函数最小化，模型需要通过迭代的方式不断地调整模型参数。具体来说，梯度下降算法会计算出当前模型参数对应的损失函数的梯度（即损失函数关于各个模型参数的偏导数），并按照该梯度的方向更新模型参数，使模型损失函数在该点上减小。重复上述过程，直到达到预设的停止条件或收敛。

回到生活中的例子——假设你是一位登山爱好者，想要攀登一座高峰。你有一张地图和一些装备，但你不知道该怎样走才能尽快到达山顶。这时候，你可以使用梯度下降算法来帮助你找到最短的路径。

首先，你需要选择一个起点，并确定一个目标：到达山顶。其次，你可以根据地图上的海拔信息计算出当前位置到山顶的相对高度（即损失函数），并计算出在该位置上向上爬升的最陡峭的方向（即梯度）。接着，你就朝着该方向走一段距离，并重新计算相对高度和梯度，再次朝着新的方向前进。如此重复，直到到达山顶位置或者无法再继续前进为止，就像图4-4所示的这样。

图4-4 梯度下降，就像你在爬山时寻找最短的路径一样

在这个例子中，你的位置和朝向就是模型参数，而损失函数则是你要最小化的目标函数。梯度下降算法通过反复迭代和更新参数，来逐步逼近目标函数的最小值。

原理输出4.4

为了更好地理解什么是梯度下降，请大家在ChatGPT的帮助下录制一个长度约为2分钟的短视频，介绍梯度下降的概念。

小贴士

可以参考的ChatGPT提示词如下。

“什么是梯度下降？”

“请用通俗易懂的语言，结合生活中的例子，介绍什么是梯度下降。”

实操练习4.4

为了让大家可以用代码的形式学习梯度下降的概念，接下来大家可以让ChatGPT生成示例代码，并在Colab新建一个Notebook文件运行这些代码。

小贴士

要让ChatGPT生成代码，可以参考的提示词如下。

“请用Python演示梯度下降，需要可视化。”

4.3.3 牛顿法

牛顿法是一种用于寻找函数零点、最小值或最大值的优化算法。它基于牛顿-拉夫逊迭代公式，通过使用函数的一阶和二阶导数来逼近该函数的局部极值。

在找到函数的某个点之后，牛顿法可以通过迭代来改进这个点的估计值。在每一次迭代中，牛顿法会利用该点处的一阶导数和二阶导数信息来更新当前点的估计位置。这个过程会不断重复进行直到满足特定的停止条件。

牛顿法的优点是收敛速度很快，但它也有一些缺点。其中一个主要缺点是，在某些情况下，如果初始点选择得不好，它可能会产生无法收敛的结果，并且计算复杂度较高，需要求解二阶导数。因此，在实际应用中，人们常常采用变种的牛顿法来应对这些问题。

用生活中的例子来说——假设你在一条山路上驾车，你想找到这条路的最低点，也就是山谷的位置。你可以使用牛顿法来找到这个最低点。

图4-5 牛顿法的基本思想，就像我们从山上开车下来，寻找山底的过程

首先，你会在某个位置停下来并记录下你当前所处的位置高度。其次，你会计算这个位置的斜率，也就是这条路向下的倾斜程度。如果这个斜率值很大，那么你会知道最低点很可能在更远的地方，因此你会开车继续前行。如果这个斜率值很小，那么你会知道最低点很可能就在附近，因此你会慢慢地往下开车。

接下来，你会再次停下来，并记录下你当前所处的位置高度，然后再次计算斜率。你会不断重复这个过程，每一次计算斜率时，你都会使用上一次记录的位置作为起点。这个过程会一直进行，直到你发现斜率已经变得非常小，或者你发现你已经到达了一个低谷的位置，就像图4-5所示的这样。

在这个例子中，你的车辆位置就相当于函数中的变量，而山路的高度则相当于函数值。通过不断计算斜率，也就是函数的导数，你能够确定函数值在哪个方向下降得最快，从而找到更低的位置。这个过程就是牛顿法的基本思想。

原理输出4.5

为了更好地理解什么是牛顿法，请大家在ChatGPT的帮助下录制一个长度约为2分钟的短视频，介绍牛顿法的概念。

小贴士

可以参考的ChatGPT提示词如下。

“什么是牛顿法。”

“请用通俗易懂的语言，结合生活中的例子，介绍什么是牛顿法。”

实操练习4.5

为了让大家可以用代码的形式学习牛顿法的概念，接下来大家可以让ChatGPT生成示例代码，并在Colab新建一个Notebook文件运行这些代码。

小贴士

要让ChatGPT生成代码，可以参考的提示词如下。

“请用Python演示牛顿法，需要可视化。”

特别说明：梯度下降和牛顿法都是求解优化问题的常用方法，但它们的思想和实现方式有所不同。梯度下降是一种迭代算法，通过不断地调整参数来最小化损失函数。具体来说，它利用每个参数的梯度（导数）方向来更新模型的参数。梯度下降每次只考虑一个参数的变化，并根据该参数的梯度来确定步长（学习率），然后更新该参数。因此，梯度下降在每次迭代中只需要计算损失函数对每个参数的偏导数，计算量相对较小，适用于大规模数据集。

而牛顿法则是利用目标函数的二阶导数信息来确定每次参数的更新方向和步长。因为牛顿法利用到了目标函数的二阶导数，所以它可以更快地收敛。但需要注意的是，在高维空间中，计算和存储目标函数的海森矩阵是非常昂贵的，因此牛顿法在处理大规模数据集时可能会面临计算量和内存开销较大的问题。