



图1.2展示了一种相对简单的情况,其中的类别可以通过一条线(在更高维中则是一个超平面)来分隔。这在现实生活中并不常见。
然而,在面对如图1.4所示的情况时,我们无法通过一条直线将属于不同类别的点分隔开来。在这种情况下,简单的加权组合函数已经无法应对,我们需要采用非线性函数构建模型架构,如图1.4中的曲线分隔符所示。从函数逼近的角度来看,采用非线性模型也是非常有意义的,因为我们的最终目标是逼近复杂且高度非线性的函数,从而对实际所需的分类或估计过程进行建模。直观上,使用非线性函数进行建模也更为合适。
在机器学习领域,sigmoid函数是一个非常常用的非线性函数,因其形状类似于字母S而得名。sigmoid函数通常用希腊字母 σ 表示,其定义如下:
sigmoid函数的图像如图1.5所示。因此,我们可以采用以下流行的模型架构(尽管仍然相对简单)来对它进行建模,该架构将输入加权和的sigmoid函数(不包含额外参数)作为输出:
sigmoid函数为模型引入了非线性特性。相较于简单的加权和,这种架构能够应对更为复杂的分类任务。事实上,式(1.6)描述了神经网络的基本构建块。
图1.4 无法用一条直线分隔的两个类别,分别用浅色和深色阴影表示,它们需要通过一个曲线分隔符来实现分隔。在三维空间中,这意味着没有任何平面能够分隔这两个类别,需要借助一个曲面来完成分隔。而在更高维空间中,这意味着没有任何超平面可以完成分类任务,而是需要一个超曲面来完成
图1.5 sigmoid函数图像