口袋里的人工智能-AIGC妙笔生花最新章节_张通著

一、模仿人类理解信息

人工智能要理解信息首先要学会感知信息，人类感知信息的最直接的方式就是用眼睛看、用耳朵听，对应到人工智能的学习思路上就是如何“观察”事物以及如何“阅读”信息。相关的研究经历了多个阶段，包括符号主义、连接主义、统计学习再到现在的深度学习，其中涉及许多技术方法和模型。我们这里将针对深度学习中提升AI观察与阅读能力的核心技术进行简单的科普。

（一）用什么观察

AI观察世界需要一双“眼睛”，这双“眼睛”就是大名鼎鼎的卷积神经网络（CNN）。这是一种特殊类型的神经网络，最初是由神经科学家大卫·休伯尔（David H. Hubel）和托斯坦·维厄瑟尔（Torsten Wiesel）在20世纪60年代的研究中发现的。他们研究了大脑中视觉系统的运作方式，发现视网膜中的神经元对于不同的视觉特征（如边缘、线条等）会有不同的反应。这些神经元可以被认为是对特定视觉特征的“滤波器”。

在20世纪80年代，法国计算机科学家LeCun开始将这种思想应用于图像识别任务。他设计了一种称为“LeNet” ^［11］的CNN架构，并成功地将其用于手写数字的识别任务。然而，由于当时计算机性能的限制，CNN并没有在实际中得到广泛使用。

随着计算机硬件性能的提升，CNN在21世纪初开始得到广泛应用。在2012年，由亚历克斯·克里泽夫斯基（Alex Krizhevsky）等人开发的AlexNet ^［12］网络架构在大规模图像分类竞赛中取得了惊人的成绩，其将错误率降低了约10个百分点，从而奠定了CNN在图像识别任务中的地位。CNN在图像处理领域中的优异表现归功于其可以从数据中自动学习到特征，减少了手动特征工程的工作量。CNN处理图像的过程主要包括卷积、激活函数、池化、全连接等操作。

卷积操作是CNN的核心技术之一，也是实现视觉特征提取的重要一步。卷积操作相当于对输入数据进行滤波，提取出数据的特征。卷积操作使用滤波核对输入数据进行卷积，得到卷积特征图（图2-1）。

图2-1 输入的数据经过卷积滤波得到卷积特征图

在卷积过程中，卷积核会滑动并对每个位置进行卷积操作，生成对应位置的特征图。这些特征图作为前一层神经元所输出的信号，会传输到下一层神经元当中。当然，这些信号对于下一层神经元来说，理解起来过于复杂，因此我们通常会使用名为“激活函数”的工具，将这些特征信号转变为简单的信号。比如一种最简单的激活函数“ReLU”，它的作用是将特征信号中小于0的数值全部变为0，大于或等于0的数值保留原有数值，这样就可以保证输入到下一层神经元的特征信号永远是大于或等于0的。除此之外还有“Sigmoid”“Tanh”和“Leaky ReLU”等许多类型的激活函数，这里不做具体的描述。

池化层主要用于降维和减小过拟合。常见的池化方式包括平均池化、最大池化等。在池化过程中，池化窗口在特征图上滑动，对于每个窗口，取窗口内的平均值或最大值作为池化后的值（图2-2）。

图2-2 平均池化与最大池化的计算示例

全连接层将卷积和池化层的特征图展开成一维向量，输入到神经网络中进行分类、回归等任务。

CNN逐层进行特征提取，先从低级特征开始，逐步提取更高级别的特征。第一层卷积层会提取一些基本的图像特征，例如边缘、角点等。随着层数的增加，CNN会提取出越来越复杂的特征，如纹理、形状等。之后，这些特征都会被传入到神经网络用于决策最后一层的神经元当中，对最终的图像识别结果做出判断。这就是人工智能对图像、影像最基础的“观察”，并将这些“观察”到的结果作为视觉信息。

（二）用什么阅读

人类文明的传承依赖语言和文字，AI想阅读人类的信息自然也绕不开对语言和文字的学习，这种对人类语言文字的学习被称为自然语言处理（NLP），其发展历史可以追溯到20世纪50年代。自然语言处理研究从最初的基础语法分析发展到了涵盖情感分析、机器翻译、问答系统等多领域的复杂语义理解与生成的综合性跨学科领域。如今，自然语言处理已成为人工智能领域中不可或缺的研究方向和应用领域。自然语言处理的技术流程其实与人类学习语言一样，都需要经过多个步骤：从单词、句子再到段落逐步理解语言，而人类则是它们的老师，要一步一步地教会它们。

回想我们学习古文和外语时，第一步是不是需要明白句子是由哪些词构成的呢？我们称这一步为“分词”，即将文本分割成单词或者词组。对于英文文本，我们可以使用空格或者标点符号进行分割；对于中文文本，则需要使用专门设计过的中文分词技术进行分割。举个简单的例子，假如我们要对“今天是重阳节，我们一起去爬山吧！”进行分词，常见的分词方法有正向最大匹配法，这个方法需要我们先定义一本包含了中文已知词汇的“词典”。有了“词典”之后，我们就可以对这句话进行逐字的分析。首先是该句从左到右能在词典中匹配出来的最长词汇“重阳节”。“重阳节”这个词有3个字，我们就从左往右，开始“3字”匹配。首先匹配出的是“今天是”，由于这三个字组不成一个词，我们就将“3字”匹配降为“2字”匹配，匹配出了“今天”这个词，记为“词1”。匹配出了“词1”后，我们从“是重阳”中再次进行匹配，发现这三个字并不能组成词，因此降为“2字”匹配。但是“是重”也不是词，我们就降为“1字”匹配法，将“是”匹配为“词2”。接下来，开始“3字”匹配循环，发现“重阳节”三个字可以组成一个词，我们将它记为“词3”。这样从左到右的匹配，我们可以将这句话分为“今天/是/重阳节/，/我们/一起/去/爬山/吧/！”这样的10个“词”，并且这些词在字典中都有对应的数据向量表示。利用这一分词方法，我们就能够得到一组由“词典”向量表示的句子了，这样的分词过程被称为“token化过程”。正向最大匹配法是最简单与最常见的分词方法，除此之外还有逆向最大匹配法、双向最大匹配法等其他分词方法。

通过这些分词方法我们也可以看出，分词的结果跟“词典”息息相关。这种“词典”在深度学习领域被称为词嵌入（word embedding），常见的有词向量模型（Word2Vec） ^［20］、词表达全局向量模型（GloVe） ^［21］和FastText ^［22］等模型。这些模型可以将文本中的每个词汇映射为向量，而这些向量间的距离关系与词汇本身语义的距离相近，使我们可以从向量数据的层面去表示和捕捉词汇的语义信息。

文本进行分词后，AI就需要理解这些词的组合所代表的含义，即语义的提取。语义的提取通常依赖文本所处的场景与对应的任务，比如“没有意思”可以直观地表示为“没有具体的意思”，也可以表示为“不感兴趣的态度”，具体的语义需要结合前后文的信息来判断。

目前被用于分析处理语言文字的模型为Transformer ^［23］，2017年由谷歌提出。Transformer是BERT、GPT、CLIP等主流语言模型的基础，它具有可并行计算、训练高效和长距离依赖捕捉等优点。

Transformer模型的核心是自注意力机制（self-attention mechanism），这是一种能够对序列中所有元素进行加权计算的机制，根据特定的目标使神经网络聚焦于某些特定的信息上。在自然语言处理中，自注意力机制可以学习文本中每个单词之间的关系，并根据其在上下文中的重要性，进行加权计算，从而得到更好的文本表示。Transformer模型包括编码器（encoder）和解码器（decoder）两个部分。编码器用于对输入文本进行编码，解码器用于将编码后的文本转换为目标语言（如机器翻译任务中的目标语言）。编码器和解码器都包含多层Transformer结构，每层由多头自注意力机制和全连接前馈网络组成。

在多头自注意力机制中，输入序列会分别进行多次自注意力计算，每次计算时采用不同的查询、键和值矩阵，从而学习到不同的特征表示。通过多头自注意力机制的计算，可以捕捉序列中不同元素之间的依赖关系。这种机制的优点在于它能够自动学习文本中的语义信息和上下文关系，并且能够并行计算、高效训练。

从上面的一系列流程可以看出，AI想读懂人类的语言文字就是经过“构建词典”—“分词”—“语义的提取”3个步骤去分析、处理的。

（三）知识来源于学习

人类自出生起就在不断地学习，AI也是如此。除了了解AI观察和阅读所使用的神经网络结构之外，我们还需要知道这些结构是通过什么方法学习到我们想要的观察和阅读能力的，即了解AI是如何学习的。

目前的AI属于任务与数据驱动下的狭义人工智能（narrow AI）。对于任何一个神经网络，我们将数据作为输入，将任务用数学的语言设定为结果函数，神经网络通过不断的迭代更新它与神经元之间的连接方式，即“连接权重”，让数据经过神经网络处理后得到期望的结果。也就是说，不论神经网络结构是有利于视觉还是有利于语言文本，不论数据稀少还是庞杂，不论任务是简单直接还是曲折复杂，整个AI学习的过程就是一个数学函数优化参数的过程。这种优化神经网络参数的方法是当前基于深度学习的人工智能的根本，也是知识在神经网络中构建的基础原理。

然而，不同的人在具有同样的大脑生理结构的前提下却拥有不同的知识储备与思考逻辑，其原因就在于他们所接触的知识与学习任务的不同，AI也是如此。为了使AI在这样的学习方式下仍然能迸发出强大的知识表达能力，研究者们在除了神经网络结构设计与数据集构建任务之外，还展开了一项类似教育学的研究，即拟定AI学习任务。

从现在开始，每一位训练神经网络的研究人员都是AI的老师，AI能不能学到知识就要看“老师”们如何各显神通了。