深度学习黑箱：数学基础与架构设计最新章节_克里希南杜·乔杜里著

1.6 线性模型与非线性模型

图1.2展示了一种相对简单的情况，其中的类别可以通过一条线（在更高维中则是一个超平面）来分隔。这在现实生活中并不常见。

然而，在面对如图1.4所示的情况时，我们无法通过一条直线将属于不同类别的点分隔开来。在这种情况下，简单的加权组合函数已经无法应对，我们需要采用非线性函数构建模型架构，如图1.4中的曲线分隔符所示。从函数逼近的角度来看，采用非线性模型也是非常有意义的，因为我们的最终目标是逼近复杂且高度非线性的函数，从而对实际所需的分类或估计过程进行建模。直观上，使用非线性函数进行建模也更为合适。

在机器学习领域，sigmoid函数是一个非常常用的非线性函数，因其形状类似于字母S而得名。sigmoid函数通常用希腊字母 σ 表示，其定义如下：

sigmoid函数的图像如图1.5所示。因此，我们可以采用以下流行的模型架构（尽管仍然相对简单）来对它进行建模，该架构将输入加权和的sigmoid函数（不包含额外参数）作为输出：

sigmoid函数为模型引入了非线性特性。相较于简单的加权和，这种架构能够应对更为复杂的分类任务。事实上，式（1.6）描述了神经网络的基本构建块。

图1.4 无法用一条直线分隔的两个类别，分别用浅色和深色阴影表示，它们需要通过一个曲线分隔符来实现分隔。在三维空间中，这意味着没有任何平面能够分隔这两个类别，需要借助一个曲面来完成分隔。而在更高维空间中，这意味着没有任何超平面可以完成分类任务，而是需要一个超曲面来完成

图1.5 sigmoid函数图像