ChatGPT的基本原理与核心算法最新章节_邓志东著

1.2　人工神经元模型

人工神经元模型是利用数学模型模拟和应用生物神经元结构与功能的典范。常见的人工神经元模型包括MP模型、加权和非线性（weighted sum and nonlinearity, WSN）模型、径向基函数（radial basis function, RBF）模型和发放（spiking）模型。

表1.1给出了以上4种人工神经元模型的定义、主要特点与用途。

表1.1　人工神经元模型

1.2.1　基准神经元模型：MP模型

1943年，心理学家W. McCulloch和数理逻辑学家W. Pitts首先提出了一个简单的人工神经元模型，一般称为MP模型。该神经元模型的输入输出关系为

其中， x _j 为第 j 个输入， y _k 为第 k 个输出， w _kj 为从第 j 个神经元到第 k 个神经元的固定连接权系数（weight coefficient）， j= 1，2，…， m ，且 f （）表示非线性激活函数。在式（1.1）中， x ₀ ≜ - 1， w _k ₀ =θ _k 称为偏置（bias）。对这一早期的MP模型，激活函数 f （）通常取为阶跃函数或符号函数等二值型函数，同时连接权 w _kj 固定，且是通过设计而非由学习算法得到的。

图1.1示意性地给出了MP模型对生物神经元外部输入输出功能模拟的数学模型抽象。在这一最原始的人工神经元模型中，生物神经元的树突被抽象为人工神经元的输入向量，轴突被表达为输出，生物神经元之间的突触连接被描述为连接权系数，细胞体被表达为时空整合器或加法器，生物神经元中发放序列产生所需的阈值与发放频率限制，也被分别表达为人工神经元模型中的偏置与二值型激活函数。历史上，由这个简单数学模型构建的人工神经网络，主要包括单层感知机与二值型多层感知机等早期神经网络，通常仅能完成一些简单的逻辑运算，且无学习能力。

图1.1　生物神经元与MP模型示意图

1.2.2　第一代神经元模型：WSN模型

尽管上述MP模型十分简单，但扩展激活函数后得到的WSN模型，由于引入了学习能力，至今仍是绝大多数人工神经网络模型中的标准人工神经元模型。换句话说，除了对非线性激活函数的改进，迄今得到最广泛使用的WSN模型，与最早期的MP模型并无不同，完全继承了MP模型的基本结构与基本运算。

形式上，WSN模型的输入输出关系与式（1.1）完全相同，区别仅在于非线性激活函数 f （）必须选择为可求导的函数，例如，可取为式（1.2e）、（1.2f）的Sigmoid函数和双曲正切函数Tanh，或取为式（1.2g）的ReLU函数。相应地，WSN模型中的输入输出变量也均为连续取值。本质上，人工神经元模型中的激活函数，从二值型函数改进为可导函数这一小小的改变，却带来了极其重要的误差反向传播算法的引入。正是由于WSN人工神经元模型及其网络获得的这种学习能力，使其广泛应用于目前的前馈神经网络、反馈神经网络与递归神经网络等绝大多数人工神经网络模型中。

下面对人工神经元模型中涉及的常见激活函数进行简要的介绍。

（1）比例函数。如图1.2所示，相应的激活函数为

（2）阶跃函数。如图1.3所示，相应的激活函数为

（3）符号函数。如图1.4所示，相应的激活函数为

图1.2　比例激活函数

图1.3　阶跃激活函数

图1.4　符号激活函数

（4）饱和函数。如图1.5所示，相应的激活函数为

（5）Sigmoid函数。如图1.6所示，相应的激活函数为

其中， μ 称为形状参数。该函数也被称为Logistic函数。一般应用于浅层全连接神经网络，或作为递归神经网络的门控机制，也用于构建二分类任务的输出层。

（6）双曲正切（Tanh）函数。如图1.7所示，相应的激活函数为

其中， μ 称为形状参数。该激活函数通常应用于递归神经网络。

图1.5　饱和激活函数

图1.6　Sigmoid激活函数

图1.7　双曲正切激活函数

（7）ReLU（rectified linear unit，修正线性单元）函数。如图1.8所示，相应的激活函数为

该激活函数可较为有效地缓解深度神经网络中的梯度遽变问题，应用极其广泛。

（8）漏（leaky）ReLU函数。如图1.9所示，相应的激活函数为

相对于ReLU激活函数，区别仅在于增加了一个很小的斜率参数 α （通常在0.1~0.3取值），该参数不进行学习。这种类型的激活函数通常应用于生成式对抗网络。

（9）GeLU（Gaussian error linear unit，高斯误差线性单元）函数。如图1.10所示，相应的激活函数为

上述GeLU激活函数在基于Transformer的大型语言模型（large language model, LLM）中得到较为广泛的应用，不仅可有效避免梯度消失问题，而且可获得较优的性能。

图1.8　ReLU激活函数

图1.9　漏ReLU激活函数

图1.10　GeLU激活函数

（10）Softmax函数。如图1.11所示，相应的激活函数为

该激活函数主要应用于多分类任务的输出层，通常与交叉熵损失函数配合使用，可将其视为Sigmoid函数的推广。

（11）Swish函数。如图1.12所示，相应的激活函数为

其中， μ 为可学习的形状参数。该激活函数对深度神经网络较为有效。

（12）Mish函数。如图1.13所示，相应的激活函数为

由于该激活函数具有上无界、下有界、非单调的特性，且具有无穷阶连续性与光滑性，通常具有较好的性能，已在YOLOv4中使用。

图1.11　Softmax激活函数

图1.12　Swish激活函数

图1.13　Mish激活函数

1.2.3　第二代神经元模型：RBF模型

RBF模型的输入输出关系可写为

其中， x = [ x ₁ ， x ₂ ，…， x _n ] ^T 为 n 维输入样本向量， w = [ w _k ₁ ， w _k ₂ ，…， w _kn ] ^T 为 n 维输入连接权向量， w _kj 为从第 j 个神经元到第 k 个神经元的连接权系数，为向量范数， y _k 为第 k 个输出， k= 1，2，…， m ，且 f （）表示连续对称非线性激活函数（如高斯函数）。在式（1.3）中，对 n 维归一化输入样本向量 x ，首先随机初始化连接权向量 w 并进行归一化。然后计算两个 n 维向量< w ， x >之间的范数（如欧氏距离），并进一步比较 m 个输出神经元对应范数的大小，其中具有最小范数或距离的输出节点获胜被选中，这被称为竞争过程。之后，结合激活函数 f （），按照无监督学习算法，自组织地调整获胜节点及其邻域内输出节点的连接权向量，这被称为合作过程。最后对全部输入样本集，重复上述竞合学习过程，直至收敛。

RBF神经元模型主要配合无监督的竞合学习，一般应用于SOM网络与RBF网络等，主要应用领域包括数据聚类、数据降维、数据压缩、向量量化与无监督模式分类等。

1.2.4　第三代神经元模型：发放模型

发放模型一般被称为第三代人工神经元模型。该模型利用Hodgkin-Huxley方程和LIF方程，对人工神经元的内部结构与发放机制进行基于神经元动力学方程的描述。

Hodgkin与Huxley通过实验发现了3种不同类型的离子电流，并建立了产生动作电位的数学模型。他们的这一工作获得了1963年诺贝尔生理学或医学奖。这是利用数学模型解释神经生理学实验结果的典范之作。

如图1.14（a）所示，生物神经元的细胞膜将神经元分为胞内和胞外。考虑到一般情况下胞内壁存在许多的负电荷，而胞外壁则存在相应的正电荷，这样可以将细胞膜看作用于存储电荷的电容。类似地，由带电离子在胞内外的浓度差值而形成的电位差可视为电池，而膜对离子的选择性通透则可视为电阻。神经元的这些特性可大致等效为图1.14（b）所示的电路图。