PyTorch深度学习应用实战最新章节_陈昭明著

2-2　万般皆自“回归”起

要探究神经网络优化的过程，要先了解简单线性回归求解，线性回归方程式如下：

y = wx + b

已知样本( x , y )，要求解方程式中的参数权重( w )、偏差( b )。

图2.2　简单线性回归

一般求解方法有两种：

（1）最小平方法(Ordinary Least Square, OLS)；

（2）最大似然估计法(Maximum Likelihood Estimation, MLE)。

以最小平方法为例，首先定义目标函数(Object Function)或称损失函数(Loss Function)为均方误差(MSE)，即预测值与实际值差距的平方和，MSE当然越小越好，所以它是一个最小化的问题，我们可以利用偏微分推导出公式，过程如下。

（1）

其中 ε ：误差，即实际值( y )与预测值之差；

n ：样本个数。

（2） MSE = SSE / n ， n 为常数，不影响求解，可忽略。

（3）分别对 w 及 b 偏微分，并且令一阶导数=0，可以得到两个联立方程式，进而求得 w 及 b 。

（4）先对 b 偏微分，又因

f ′( x )= g ( x ) g ( x )= g ′( x ) g ( x )+ g ( x ) g ′( x )=2 g ( x ) g ′( x )

→ 两边同除以2

→ 分解

→ 除以 n ，为 x 、 y 的平均数

→ 移项

（5）对 w 偏微分：

→ 两边同除以-2

→ 分解

→ 代入步骤(4)的计算结果

→ 化简

结论：

范例1.现有一个世界人口统计数据集，以年度(year)为 x ，人口数为 y ，按上述公式计算回归系数 w 、 b 。

下列程序代码请参考【02_01_线性回归.ipynb】。

（1）使用Pandas相关函数计算，程序如下：

执行结果：

w =0.061159358661557375， b =-116.35631056117687

（2）改用NumPy的现成函数polyfit验算：

执行结果：答案相差不大。

w =0.061159358661554586, b =-116.35631056117121

（3）上面公式， x 只限一个，若以矩阵计算则更具通用性，多元回归亦可适用，即模型可以有多个特征( x )，为简化模型，将 b 视为 w 的一环：

一样对 SSE 偏微分，一阶导数=0有最小值，公式推导如下：

→ 移项、整理

( xx ′) w = xy

→ 移项

w =( xx ′) ⁻¹ xy

（4）使用NumPy相关函数计算，程序如下：

执行结果与上一段相同。

范例2.再以Scikit-Learn的房价数据集为例，求解线性回归，该数据集有多个特征( x )。

（1）以矩阵计算的方式，完全不变。

执行结果如下：

（2）以Scikit-Learn的线性回归类别验证答案。

执行结果与采用矩阵计算的结果完全相同。

（3）PyTorch自v1.9起提供线性代数函数库 ^[1] ，可直接调用，程序改写如下：

执行结果与NumPy计算完全相同。

2-3　神经网络

有了以上的基础后，我们就可以进一步探讨神经网络(Neural Network)如何求解，这是进入深度学习领域非常重要的概念。

2-3-1　神经网络概念

神经网络是深度学习最重要的算法，它主要是模仿生物神经网络的传导系统，希望通过层层解析，归纳出预测的结果。

图2.3　生物神经网络的传导系统

生物神经网络中表层的神经元接收到外界信号，归纳分析后，再通过神经末梢，将分析结果传给下一层的每个神经元，下一层神经元进行相同的动作，再往后传导，最后传至大脑，大脑做出最后的判断与反应。

图2.4　神经元结构

于是，AI科学家将上述生物神经网络简化成下列的网络结构。

图2.5　AI神经网络

AI神经网络最简单的连接方式称为完全连接(Full Connected, FC)，亦即每个一神经元均连接至下一层的每个神经元，因此，我们可以把第二层以后的神经元均视为一条回归线的 y ，它的特征变量( x )就是前一层的每一个神经元，例如下面的 y ₁ 、 z ₁ 两条回归线。

y ₁ = w ₁ x ₁ + w ₂ x ₂ + w ₃ x ₃ + b

z ₁ = w ₁ y ₁ + w ₂ y ₂ + w ₃ y ₃ + b

所以，简单讲，一个神经网络可视为多条回归线组合而成的模型。

图2.6　一个神经网络可视为多条回归线组合而成的模型

以上的回归线是线性的，为了支持更通用性的解决方案(Generic Solution)，模型还会乘上一个非线性的函数，称为激励函数(Activation Function)，期望也能解决非线性的问题，如下图所示。由于中译名称“激励函数”并不能明确表达其原意，故以下直接以英文Activation Function表示。

图2.7　激励函数(Activation Function)

如果不考虑Activation Function，每一条线性回归线的权重(Weight)及偏差(Bias)可以通过最小平方法(OLS)求解，但乘上非线性的Activation Function，就比较难用单纯的数学公式求解了，因此，学者就利用优化(Optimization)理论，针对权重、偏差各参数分别偏微分，沿着切线(即梯度)逐步逼近，找到最佳解，这种算法就称为“梯度下降法”(Gradient Descent)。

有一个很好的比喻来形容这个求解过程：当我们在山顶时，不知道下山的路，于是，就沿路往下走，遇到叉路时，就选择坡度最大的叉路走，直到抵达平地为止。所以梯度下降法利用偏微分(Partial Differential)求解斜率，沿斜率的方向，一步步往下走，逼近最佳解，直到损失函数没有显著改善为止，这时我们就认为已经找到最佳解了。

图2.8　梯度下降法(Gradient Descent)示意图

2-3-2　梯度下降法

梯度其实就是斜率，单变量回归线的权重称为斜率，对于多变量回归线，须个别作偏微分求取权重值，就称为梯度。以下，先针对单变量求解，示范如何使用梯度下降法(Gradient Descent)求最小值。

范例1.假定损失函数 f ( x )= x ² ，而非MSE，请使用梯度下降法求最小值。

注意，损失函数又称为目标函数或成本函数，在神经网络相关文献中大多称为损失函数，本书将统一以“损失函数”取代“目标函数”。

下列程序代码请参考【02_02_梯度下降法.ipynb】。

（1）定义函数(func)及其导数(dfunc)。

（2）定义梯度下降法函数，反复更新 x ，更新的公式如下，后面章节我们会推算公式的由来。

新的 x =目前的 x -学习率(learning_rate)*梯度(gradient)

（3）设定起始点、学习率(lr)、执行周期数(epochs)等参数后，调用梯度下降法求解。

执行结果：

每一执行周期的损失函数如下，随着 x 变化，损失函数逐渐收敛，即前后周期的损失函数差异逐渐缩小，最后当 x =0时，损失函数 f ( x )等于0，为函数的最小值，与最小平方法(OLS)的计算结果相同。

[5.2, 0.8, 0.32, 0.13, 0.05, 0.02, 0.01, 0, 0, 0, 0, 0, 0, 0, 0]

如果改变起始点(x_start)为其他值，例如-5，依然可以找到相同的最小值。

范例2.假定损失函数 f ( x )=2 x ⁴ −3 x ² ++2 x −20，请使用梯度下降法求取最小值。

（1）定义函数及其微分。

（2）绘制损失函数。

执行结果：

梯度下降法函数(GD)不变，执行程序，如果学习率不变(lr=0.3)，会出现错误信息：Result too large，原因是学习率过大，梯度下降过程错过最小值，往函数左方逼近，造成损失函数值越来越大，最后导致溢出。

修改学习率(lr=0.001)，同时增加执行周期数(epochs=15000)，避免还未逼近到最小值，就提早结束。

执行结果：当x=0.51时，函数有最小值。

观察上述范例，不管函数为何，我们以相同的梯度下降法(GD函数)都能够找到函数最小值，最重要的关键是“ x 的更新公式”：

新的 x =目前的 x -学习率(learning_rate)*梯度(gradient)

接着我们会说明此公式的由来，也就是神经网络求解的精华所在。

2-3-3　神经网络权重求解

神经网络权重求解是一个正向传导与反向传导反复执行的过程，如下图所示。

图2.9　神经网络权重求解过程

（1）由于神经网络是多条回归线的组合，建立模型的主要任务就是计算出每条回归线的权重( w )与偏差( b )。

（2）依上述范例的逻辑，一开始我们指定 w 、 b 为任意值，建立回归方程式 y = wx + b ，将特征值( x )代入方程式，可以求得预测值，进而计算出损失函数，例如MSE，这个过程称为正向传导(Forward Propagation)。

（3）通过最小化MSE的目标和偏微分，可以找到更好的 w 、 b ，并依学习率来更新每一层神经网络的 w 、 b ，此过程称为反向传导(Back Propagation)。这部分可以由微分的连锁率(Chain Rule)，一次逆算出每一层神经元对应的 w 、 b ，公式为：

W _t ₊₁ = W _t -学习率(learning rate)*梯度(gradient)

其中：

学习率是优化器事先设定的固定值或动能函数。

（4）重复(2)、(3)步骤，一直到损失函数不再有明显改善为止。

梯度(gradient)公式证明如下：

（1）损失函数，因 n 为常数，故仅考虑分子，即 SSE 。

（2）

（3）以矩阵表示， SSE = y ² −2 ywx + w ² x ²

（4）

（5）同理，

（6）为了简化公式，常把系数2拿掉。

（7）最后公式为：

调整后权重=原权重 + (学习率*梯度)

（8）有些文章将梯度负号拿掉，公式就修正为：

调整后权重=原权重 - (学习率*梯度)。

以上是以MSE为损失函数时的梯度计算公式，若使用其他损失函数，梯度计算结果也会有所不同，如果再加上Activation Function，梯度公式计算就更加复杂了。还好，深度学习框架均提供自动微分(Automatic Differentiation)、计算梯度的功能，我们就不用烦恼了。后续有些算法会自定义损失函数，因而产生意想不到的功能，例如风格转换(Style Transfer)可以合成两张图像，生成对抗网络(Generative Adversarial Network, GAN)，产生几可乱真的图像。也因为如此关键，我们才花费了这么多的篇幅铺陈“梯度下降法”。

基础原理介绍到此，下一章，我们就以PyTorch实现自动微分、梯度下降、神经网络层，进而构建各种算法及相关的应用。

2-2 万般皆自“回归”起

2-3 神经网络

2-3-1 神经网络概念

2-3-2 梯度下降法

2-3-3 神经网络权重求解

2-2　万般皆自“回归”起

2-3　神经网络

2-3-1　神经网络概念

2-3-2　梯度下降法

2-3-3　神经网络权重求解