智能计算系统：从深度学习到大模型最新章节_陈云霁著

2.2 神经网络

神经网络是目前最主流的机器学习方法。本节将对神经网络的基本原理进行逐步介绍，从最基本的神经网络——感知机，到多层感知机，再到深度学习（深层神经网络），并对神经网络发展历程进行简要概述。

2.2.1 感知机

我们首先介绍最简单的人工神经网络：只有一个神经元的单层神经网络，即感知机。它可以完成简单的线性分类任务。图2.4是一个两输入的感知机模型，其神经元的输入是 x =[ x ₁ ； x ₂ ]，输出是 y =1和 y =-1两类， w ₁ 和 w ₂ 是突触的权重（也称为神经网络的参数），该感知机可以完成对输入样本的分类。该感知机模型的形式化表示为：

其中，（ w ， b ）是模型参数。

图2.4 一个神经元的单层感知机

感知机模型训练的目标是找到一个超平面 S （ w ^⊤ x + b =0），将线性可分的数据集 T 中的所有样本点正确地分为两类。超平面是 N 维线性空间中维度为 N -1的子空间。二维空间的超平面是一条直线，三维空间的超平面是一个二维平面，四维空间的超平面是一个三维体。对于图2.5中的两类点，感知机模型训练时要在二维空间中找到一个超平面（即一条直线）将这两类点分开。为了找到超平面，需要找出模型参数 w 和 b 。相对线性回归，感知机模型中增加了sign（ x ）计算，即激活函数，激活函数的输出也称为激活值。该计算增加了求解参数的复杂性。

图2.5 分类区域 x 空间

感知机模型训练首先要找到一个合适的损失函数，然后通过最小化损失函数来找到最优的超平面，即找到最优的超平面的参数。考虑一个训练集 D ={（ x ₁ ， y ₁ ），（ x ₂ ， y ₂ ），…，（ x _m ， y _m ）}，其中样本 x _j ∈ R ⁿ ，样本的标签 y _j ∈{+1，-1}。超平面 S 要将两类点区分开来，即使分不开，也要与分错的点比较接近。因此，损失函数定义为误分类的点到超平面 S （ w ^⊤ x + b =0）的总距离。

样本空间中任意点 x _j 到超平面 S 的距离为

其中，是 w 的范数，简记为‖ w ‖，其计算为。

假设超平面 S 可以将训练集 D 中的样本正确地分类，当 y _j =+1时， w ^⊤ x _j + b ⩾0；当 y _j =-1时， w ^⊤ x _j + b <0。对于误分类的点，预测出来的值可能在超平面的上方，但实际位置在下方，因此 y _j 和预测出来的值的乘积应该是小于0的。即训练集 D 中的误分类点满足条件 -y _j （ w ^⊤ x _j + b ）>0。

去掉误分类点 x _j 到超平面 S 的距离表达式（2.10）中的绝对值符号，得到

设误分类点的集合为 M ，所有误分类点到超平面的总距离为

由于‖ w ‖是一个常数，损失函数可定义为

感知机模型训练的目标是最小化损失函数。当损失函数足够小时，所有误分类点要么没有，要么离超平面足够近。损失函数中的变量只有 w 和 b ，类似于线性回归中的变量 w ₁ 和 w ₂ 。可以用梯度下降法来最小化损失函数，损失函数 L （ w ， b ）对 w 和 b 分别求偏导可以得到

如果用随机梯度下降法，可以随机选取误分类样本（ x _j ， y _j ），以 η 为步长对 w 和 b 进行更新

通过迭代可以使损失函数 L （ w ， b ）不断减小直至为0，即使最终不为0，也会逼近于0。通过上述过程可以把只包含参数（ w ， b ）的感知机模型训练出来。