深度学习黑箱：数学基础与架构设计最新章节_克里希南杜·乔杜里著

1.7 通过多个非线性层提高表达能力：深度神经网络

正如我们在1.6节中所讨论的，通过将非线性引入基础的加权和中，可以构建出能够处理更复杂任务的模型架构。从机器学习的角度来说，非线性模型具有更强的表达能力。

现在，让我们考虑一个现实生活中的问题：例如，构建一个狗的识别器。输入空间包括像素位置和像素颜色（ x ， y ， r ， g ， b ，其中 r ， g ， b 分别代表像素颜色中的红色、绿色、蓝色分量），因此输入的维度可能很大（与图像中的像素数量成比例）。图1.6展示了背景和前景的可能变化，这是一个典型的深度学习系统（如狗的图像识别器）必须处理的内容。因此，我们需要一台具有极高表达能力的机器。那么，我们该以怎样的原则来构建这样一台机器？

我们可以采取级联的方法，而不是从输入生成输出的一步到位。首先从输入生成一组中间或隐藏的输出，其中每个隐藏输出在本质上都是一个单独的逻辑回归单元。然后，我们添加另一层网络，将前一层的输出作为输入，以此类推。最后，我们将最外层隐藏层的输出合并成最终输出。

我们用以下方程对该系统进行了描述。请注意，我们在权重上添加了上标，以此来标识不同的层（第0层最接近输入；第 L 层是最后一层，离输入最远）。我们还使用了二维下标（因此给定层的权重就形成了一个矩阵），第一个下标表示目的节点，第二个下标表示源节点（见图1.7）。

细心的读者可能会注意到，下面的方程并没有明确包含偏置项。这是因为，为了简化表示，我们将它归入了权重集，并假设其中一个输入（比如， x ₀ =1）及其对应的权重（如 w ₀ ）代表偏置。

图1.6 一个典型的深度学习系统（这里是狗的图像识别器）需要处理的背景和前景的变化情况

图1.7 多层神经网络

第0层：从 n +1个输入生成 n ₀ 个隐藏输出

第1层：从第0层的 n ₀ 个隐藏输出生成 n ₁ 个隐藏输出

最终层（ L ）：从前一层的 n _L _-1 个隐藏输出生成 m +1个可见输出

图1.7展示了这些方程式所描述的网络，它具有非常强大的表达能力。我们可以系统地调整它的表达力以适应当前的问题。这就是一个神经网络。我们将在本书的其余部分深入探讨这一主题。