人工智能按研究学派主要分为三类,包括行为主义(behaviorism)、符号主义(symbolism)、连接主义(connectionism)。
行为主义的核心思想是基于控制论构建感知-动作型控制系统。1943年,A.Rosen-blueth、J.Bigelow、N.Wiener提出所有有目的的行为都需要负反馈 [1] 。1948年,N.Wiener在《控制论》( Cybernetics ) [2] 中提出控制论是研究动物和机器的控制与通信的科学,并讨论了用机器实现国际象棋的可能性。同时期的W.Ashby也探讨过人工智能机器的可能性,并在《大脑设计》( Design for a Brain ) [3] 中阐述了利用包含适当反馈环路以获取稳定适应行为的自平衡设备来创造智能。通过控制论实现人工智能的可能性,在20世纪50年代引起人工智能研究者的关注。在C.Shannon和J.McCarthy征集出版的《自动机研究》( Automata Studies ) [4] 中有很多控制论方面的研究工作,涉及有限自动机、图灵机、合成自动机,希望基于控制论构建一些感知动作的反应性控制系统。同样在20世纪50年代,R.Bellman发表了论文“A Markovian Decision Process”(一种马尔可夫决策过程) [5] ,奠定了强化学习的理论基础。在强化学习中,智能体对环境的状态进行观察,并根据观察和自身的策略做出相应的动作,而环境则根据智能体的动作所产生的影响给予智能体一定的奖励或者惩罚,以此来影响智能体的动作决策。比如在围棋比赛中,比赛胜利就会得到奖励,而比赛失败则会得到惩罚。从比较直观的角度看,行为主义方法可以模拟出类似于小脑这样的人工智能,通过反馈来实现机器人的行走、抓取、平衡,因此有很大的实用价值。但是,这类方法似乎并不是通向强人工智能的终极道路。
符号主义是基于符号逻辑的方法,用逻辑表示知识和求解问题。其基本思想是:用一种逻辑把各种知识都表示出来;当求解一个问题时,就将该问题转变为一个逻辑表达式,然后用已有知识的逻辑表达式的库进行推理来解决该问题。
在各种符号逻辑中,最常见或许也是最简单的是命题逻辑(propositional logic)。在具体演算过程中,命题逻辑只需要考虑与、或、非三种操作,以及0、1两种变量取值。命题逻辑的表达能力很弱,连“不是所有的鸟都会飞”这样的知识都无法表示 [6] 。因此,逻辑学家们引入了谓词和量词,形成了谓词逻辑(predicate logic)来加强表达能力。量词包括“存在”(∃)和“任取”(∀)两种;谓词则是一个函数,它以其定义域中的实体作为输入,以0、1作为输出。例如,可以用∀ x 表示“任意一只鸟”,用谓词 B ( x )表示“ x 是一只鸟”,用谓词 P ( x )表示“ x 会飞”。“不是所有的鸟都会飞”可以表示为¬(∀ x ( B ( x )→ P ( x )))。谓词逻辑还可以进一步分为一阶逻辑和高阶逻辑。一阶逻辑的量词不能作用在谓词之上,高阶逻辑的量词还可以作用于谓词之上。
符号主义是人工智能研究发展之初最受关注的方法。在20世纪,学术界普遍认为符号主义是通向强人工智能的一条终极道路。但通过60多年的探索,符号主义展现出一些本质性的问题:
(1)逻辑问题。从逻辑的角度,难以找到一种简洁的符号逻辑体系来表述出世间所有的知识。例如,普通的谓词逻辑无法方便地表示时间、空间、概率等信息。A.Pnueli提出了时态逻辑(Temporal Logic,TL),即在一阶逻辑上加入时间,并因此获得了1996年的图灵奖。但是TL还不能方便地表述对不确定的未来的判断,因此E.Clarke等人进一步提出了计算树逻辑(Computation Tree Logic,CTL),即把时间建模成一个树状结构,而树的每条路径都是历史发展的一种可能性。Clarke等人也因此获得了2007年图灵奖。可以看出,仅仅表述时间相关的信息就已经很不容易。迄今为止,学术界为了表述知识,已经发明了成百上千种逻辑。但今天我们依然还没有一种公认的大一统逻辑来表述所有的知识。
(2)常识问题。人类在做判断决策时,往往基于大量的常识。例如,当有人说他在家里阳台上欣赏落日时,我们根据常识能判断出他一定是在西边的阳台上。而世间的常识数不胜数。20世纪七八十年代广泛研究的专家系统,希望在特定领域把领域内的常识都用逻辑表达式记录下来。但即便是一个领域,其中的常识也太多了。迄今为止,研究者还没能把一个实用领域中的所有常识都用逻辑表达式记录下来。
(3)求解器问题。在符号主义中,解决问题的关键环节是逻辑求解器。它负责根据已有的知识来判断问题对应的逻辑表达式是否成立。但是,逻辑求解器的时间复杂度非常高。即便是最简单的命题逻辑,它的求解也依然是NP完全的(事实上,命题逻辑的可满足性判断问题是第一个被证明为NP完全的问题)。而各种谓词逻辑一般都是不可判定的,也就是理论上不存在一种机械方法能在有限时间内判定任意一个谓词逻辑表达式是否成立。
由于上述原因,符号主义在工业上实用的成功案例很少。如果从国际人工智能联合会议(IJCAI)收录的论文数量看,现在在整个人工智能学术界,研究符号主义的学者的数量远少于10% 。
我们认为,符号主义最本质的问题是只考虑了理性认识的智能。人类的智能包括感性认识(感知)和理性认识(认知)两个方面。即便人类自己,也是一步步从底层的感知智能开始,像动物一样识别各种物体、气味、声音,产生本能反应,然后才在此基础上产生了生物界中独一无二的复杂语言,进而产生文字,再进而产生数学和逻辑,最终形成认知智能。符号主义跳过前面这些阶段,直奔逻辑,难免遇到巨大的阻碍。但我们依然相信,在未来通往强人工智能的道路上,符号主义方法会和其他方法融合,发挥重要作用。
人类大脑是我们迄今已知最具智能的物体。它基于上千亿个神经元细胞连接组成的网络,赋予人类思考的能力。连接主义方法的基本出发点是借鉴大脑中神经元细胞连接的计算模型,用人工神经网络来拟合智能行为。
事实上,连接主义方法并不是完全照抄人类的大脑,因为生物的大脑非常复杂,即便是一个神经元细胞也很复杂。如图1.1所示,一个神经元细胞包括细胞体和突起两部分,其中细胞体由细胞膜、细胞核、细胞质组成,突起有轴突(axon)和树突(dendrite)两种。轴突是神经元长出的一个长而且分支少的突起,树突是神经元长出的很多短而且分支多的突起。一个神经元的轴突和另外一个神经元的树突相接触,形成突触 。
图1.1 生物神经元细胞(上)和人工神经元(下)
人工神经网络则对生物的神经元细胞网络进行了大幅度的抽象简化,把每个细胞体的输出、每个突触强度都抽象成一个数字。具体来说,图1.1中的一个人工神经元可以从外界得到输入 x 1 ,…, x n ,每个输入有一个突触的权重 w 1 ,…, w n ,对神经元的输入进行加权汇总之后,通过一个非线性函数得到该神经元的输出。
连接主义方法肇始于1943年。心理学家W.McCulloch和数理逻辑学家W.Pitts通过模拟人类神经元细胞结构,建立了M-P神经元模型(McCulloch-Pitts neuron model) [7] ,这是最早的人工神经网络。此后60余年里,通过F.Rosenblatt(感知机模型)、D.Rumelhart(反向传播训练方法)、Y.LeCun(卷积神经网络)、Y.Bengio(深度学习)、G.Hinton(深度学习和反向传播训练方法)等学者的不懈努力,连接主义逐渐成为整个人工智能领域的主流研究方向。
目前,深度学习等方法已广泛应用于图像识别、语音识别、自然语言处理等领域,产生了换头换脸、图像风格迁移等有意思的应用,甚至在围棋和《星际争霸》游戏中战胜了人类顶尖高手。此外,大模型在问答、搜索、多模态等领域表现出色,彻底改变了当前的人机交互模式,并且伴随着插件、记忆、反思、制造和使用工具等功能的提出,在各种规划推理任务上的表现也迅速提升,能在虚拟小镇中通过智能体之间的对话涌现有意思的现象,以及在《我的世界》游戏中不断地自动学习新的技能。目前围绕深度学习技术,已经逐渐形成了万亿级别的智能产业,包括智能安防、智能教育、智能手机、智能家电、智慧医疗、智慧城市、智慧工厂等。本书重点介绍的也是面向深度学习的智能计算系统。
但是,我们必须清醒地认识到,深度学习不一定是通向强人工智能的终极道路。它更像是一个能帮助我们快速爬到二楼、三楼的梯子,但顺着梯子我们很难爬到月球上。深度学习已知的局限包括:
(1)泛化能力有限。深度学习训练需要依靠大量的样本,与人类的学习机理不同。人类在幼儿时期会依据大量外在数据学习,但是成年人类的迁移学习能力和泛化能力远高于现在的深度学习。
(2)缺乏逻辑推理能力。缺乏逻辑推理能力使得深度学习不擅长解决认知类的问题。如何将擅长逻辑推理的符号逻辑与深度学习结合起来,是未来非常有潜力的发展方向。即便是最新的GPT-4这样的大模型,在很多逻辑推理问题上依然存在幻觉等问题,表现欠佳。
(3)缺乏可解释性。在比较重视安全的领域,缺乏可解释性会带来一些问题。比如,某个决策是如何做出来的?深度学习为什么识别错了?
(4)鲁棒性欠佳。在一张图像上加一些人眼很难注意到的点,就可以让深度学习算法产生错误判断,例如把猪识别成猫,把牛识别成狗。