



正如我们在1.6节中所讨论的,通过将非线性引入基础的加权和中,可以构建出能够处理更复杂任务的模型架构。从机器学习的角度来说,非线性模型具有更强的表达能力。
现在,让我们考虑一个现实生活中的问题:例如,构建一个狗的识别器。输入空间包括像素位置和像素颜色( x , y , r , g , b ,其中 r , g , b 分别代表像素颜色中的红色、绿色、蓝色分量),因此输入的维度可能很大(与图像中的像素数量成比例)。图1.6展示了背景和前景的可能变化,这是一个典型的深度学习系统(如狗的图像识别器)必须处理的内容。因此,我们需要一台具有极高表达能力的机器。那么,我们该以怎样的原则来构建这样一台机器?
我们可以采取级联的方法,而不是从输入生成输出的一步到位。首先从输入生成一组中间或隐藏的输出,其中每个隐藏输出在本质上都是一个单独的逻辑回归单元。然后,我们添加另一层网络,将前一层的输出作为输入,以此类推。最后,我们将最外层隐藏层的输出合并成最终输出。
我们用以下方程对该系统进行了描述。请注意,我们在权重上添加了上标,以此来标识不同的层(第0层最接近输入;第 L 层是最后一层,离输入最远)。我们还使用了二维下标(因此给定层的权重就形成了一个矩阵),第一个下标表示目的节点,第二个下标表示源节点(见图1.7)。
细心的读者可能会注意到,下面的方程并没有明确包含偏置项。这是因为,为了简化表示,我们将它归入了权重集,并假设其中一个输入(比如, x 0 =1)及其对应的权重(如 w 0 )代表偏置。
图1.6 一个典型的深度学习系统(这里是狗的图像识别器)需要处理的背景和前景的变化情况
图1.7 多层神经网络
第0层:从 n +1个输入生成 n 0 个隐藏输出
第1层:从第0层的 n 0 个隐藏输出生成 n 1 个隐藏输出
最终层( L ):从前一层的 n L -1 个隐藏输出生成 m +1个可见输出
图1.7展示了这些方程式所描述的网络,它具有非常强大的表达能力。我们可以系统地调整它的表达力以适应当前的问题。这就是一个神经网络。我们将在本书的其余部分深入探讨这一主题。