序

等那一口仙气儿

段永朝
财讯传媒集团首席战略官
苇草智酷创始合伙人

2019年，梅拉妮·米歇尔博士的这本新著《AI 3.0》甫一出版，就跻身亚马逊“计算机与技术”畅销书行列。10年前，她的《复杂》（ Complexity ）一书荣登亚马逊年度十佳科学图书榜单。人工智能（artificial intelligence, AI）类的图书可谓汗牛充栋，大致可分为两类：一类是给专业的工程师看的，另一类是给大众的普及读物。米歇尔的这部书介乎两者之间，它有专业的技术阐释，更有深刻的思想洞察。

“侯世达的恐惧”

米歇尔是侯世达（Douglas Hofstadter） ⁽¹⁾ 的学生。侯世达是蜚声中外的畅销书《哥德尔、艾舍尔、巴赫：集异璧之大成》（ G ö del, Escher, Bach: an Eternal Golden Braid ）的作者。这部1979年出版的不朽著作，往往被简称为“GEB”，40多年来长盛不衰，令无数学习计算机科学和数理科学的大学生心醉神迷。米歇尔1990年在侯世达的指导下获得博士学位，后在美国波特兰大学任计算机科学教授，同时也是著名的复杂科学研究圣地——美国圣塔菲研究所的客座研究员。

2016年，谷歌公司的AlphaGo横扫围棋界一应高手，让全世界见识了新一波人工智能掀起的巨浪。一时间，机器翻译、语音识别、虚拟现实、自动驾驶、人工智能机器人等轮番登场，“奇点爆炸”“超级智能”“数字永生”等概念如雨后春笋般涌现，人工智能成为几乎所有大型前沿科技论坛必设的主题，“通用人工智能”（artificial general intelligence，AGI）仿佛指日可待。

2018年4月18日，我有幸在腾讯研究院、集智俱乐部、湛庐和苇草智酷联合主办的一个沙龙上，见到了久仰大名的“大神”侯世达，并参加了圆桌对话。在侯世达眼里，人工智能没那么高深，他直言很讨厌“人工智能”这个词，并以其新著《表象与本质》中的例子，批驳人工智能毫无“智能”可言。

米歇尔的这部《AI 3.0》为侯世达对人工智能的万般忧虑做了一次深度的技术解析。

对人工智能的种种讨论，特别是涉及技术伦理、社会价值和发展前景的时候，人们一般只会停留在悲观或者乐观的选边站队层面，无法进一步深入下去。这不奇怪，技术专家们擅长的话语是数据、算法、模型，社会学者和新闻记者们只能从技术的外部性、代码的背后之手、人性之善恶的角度，捍卫或者批判某种价值主张。对绝大多数非专业人士而言，由于搞不懂隐藏在反向传播算法、卷积神经网络（convolutional neural networks，ConvNets）、马尔可夫过程、熵原理这些硬核知识背后的思想内涵，就只能以“好与坏”“善与恶”的视角对人工智能进行理解和评判。讲述技术视角的思想基础，弥合“理科生”与“文科生”之间看待人工智能的思想鸿沟，正是米歇尔这部书的价值所在。当然，从我这样一名30年前曾做过专家系统（expert system）、机器推理算法的半个业内人士的角度来看，米歇尔的这部书如果能再“柔和”一些，可能效果更佳，不过这的确很难，跨越学科分野的努力，既重要又充满挑战。

《AI 3.0》开篇即提出这样一个“侯世达的恐惧”：不是担心人工智能太聪明，而是担心人工智能太容易取代我们人类所珍视的东西。这说出了很多人的心声，人们对人工智能的忧虑，在于这一领域发展得实在是太快了，已经渗透到日常生活的各个角落。不知不觉，我们周围的一切似乎都变得智能了，都被“强壮”的机器代码、算法接管了，人工智能似乎就是为接管世界而生的。这一波人工智能浪潮，随着一座座“生活城池的沦陷”，日益亢奋起来，超级智能、通用人工智能似乎指日可待，人工智能彻底接管这个世界似乎越来越现实，越来越不容置疑了。要知道，自1956年“人工智能”这一术语在美国达特茅斯学院的一个小型座谈会上被提出之后，“通用问题求解器”（general problem solver，GPS）就是当年人工智能的重要目标。

本书共分为5个部分。这篇序言，并非是对原书精彩内容的“剧透”，而是试图做一点点背景解析，与各位关注、思考人工智能的朋友交流。

人工智能的历史遗留问题

本书第一部分回顾了人工智能超过半个世纪的发展历史，并提出该领域两类主要的人工智能，一类是符号人工智能（symbolic AI），另一类是以感知机为雏形的亚符号人工智能（subsymbolic AI）。前者的基本假设是智能问题可以归为“符号推理”过程，这一学派也被称为“心智的计算理论”（computational theory of mind，CTM）学派。这一理论可追溯至计算机鼻祖法国科学家帕斯卡以及德国数学家莱布尼茨，真正体现这一思想的所谓智能机器，源于英国的查尔斯·巴贝奇（Charles Babbage）以及艾伦·图灵（Alan Turing）的开创性工作。

亚符号人工智能的出现归功于行为主义认知理论的崛起，可追溯至英国哲学家大卫·休谟和美国心理学家威廉·詹姆斯，其思想基础是“刺激-反应理论”。20世纪40年代，美国神经生理学家麦克卡洛克（W. S. McCulloch）、匹茨（W. A. Pitts）提出神经元模型后，心理学家弗兰克·罗森布拉特（Frank Rosenblatt）提出了感知机模型，这奠定了神经网络的基础。

然而，20世纪五六十年代的人工智能，在符号演算和感知机两个方向上都陷入了停滞。80年代兴起的专家系统和神经网络，也因为受制于计算能力和对智能的理解，并未获得实质性的突破。

与一般人工智能著作不同的是，在概述“人工智能的寒冬”这一背景之后，米歇尔将注意力集中在“何以如此”这个关键问题上。了解人工智能“技术内幕”的专业人士都知道，算法在外行人看来的确神秘莫测，但在工程师眼里其所仰仗的说到底还是计算能力和符号演算的逻辑基础——这才是理解人工智能的关键。

受惠于神经网络和机器学习（machine learning）的发展，特别是2016年谷歌公司的AlphaGo在各种围棋比赛中大获全胜，给全世界做了一次人工智能科普，人工智能的第三波浪潮开始了。自从IBM的智能程序沃森（Watson）在智力竞赛《危险边缘》（ Jeopardy! ）中取得十分亮眼的表现，无人驾驶汽车、图像识别和语音识别等技术越来越受到人们的关注，一大波斗志昂扬的“人工智能预言”伴随着这一波人工智能浪潮愈演愈烈。DeepMind创始人之一沙恩·莱格（Shane Legg）认为，超越人类水平的人工智能将在2025年左右出现。谷歌公司战略委员会成员雷·库兹韦尔（Ray Kurzweil） ⁽²⁾ 则提出了令人震惊的“奇点理论”，他认为2029年完全通过图灵测试（Turing test）的智能机器将会出现，以强人工智能为基础的智能爆炸将会在2045年出现。

米歇尔的论述有一条清晰的线索，她细致地分析了人工智能在视觉、游戏、机器翻译等领域最新的进展后指出：迄今为止令人眼花缭乱的智能突破，其实尚未触及智能问题的核心——自然语言理解和意义问题。为什么会这样呢？恐怕这就是我们需要仔细研读本书的一个原因吧。

到底什么是机器学习

本书第二部分分析了视觉领域的技术进展，这部分可用来理解人工智能核心算法演变的历程。

视觉领域广泛使用的专业工具是ConvNets，这一领域的创立者包括日本学者福岛·邦彦（Kunihiko Fukushima），以及法国计算机科学家杨立昆（Yann LeCun）。对外行人来说，视觉识别繁复的算法过程遮蔽了其中包含的技术思想，米歇尔将其“拎出来”展现给读者：所谓视觉识别，无非是训练出某种算法，使得机器可以利用这种算法来识别和命名它所“看到”的世界。

视觉识别的工作过程被分为两个步骤：第一步是给机器注入一定量的已知素材，比如包含猫、狗等事物的图片信息，这些信息在机器“眼里”无非是细碎的小方格——像素。通过对机器进行大量的训练，让其把这些图片中所包含的“特征”一一抽取出来。

面对一个不知道其内部构造的对象，要想猜测出其内部构造具备哪些特征，这一课题在“信号处理”这一学科中已经有长足的进展，最著名的方法就是所谓“卷积变换”，也称傅立叶变换。这一概念由法国数学家傅立叶提出，傅立叶对现代工程技术最大的贡献就在于，他发现可以通过傅立叶变换将对象的时域过程转换成方便计算的频域过程。这么说令人一头雾水。下面为帮助读者理解这一过程，我将提供一些尽可能通俗易懂的线索。

在控制论创始人诺伯特·维纳（Nobert Wiener）将“反馈”的概念引入系统控制之前，电子工程正面临大量的信号处理过程。我们可以把信号处理问题，理解成一个输入信号经过某个信号装置，产生特定输出的过程。工程师面临的问题是：在不知道信号装置本身的详细信息的前提下，如何通过输入特定的信号序列刺激信号装置产生特定的输出，从而根据这一特定的输出信号序列，推测出信号装置的特征？

举个例子：假设有一个黑箱，数学上用一种函数来表示黑箱的特征，这种函数可称为特征函数，你若想知道这个黑箱的特征，可以往黑箱里输入一个信号序列（输入函数），然后观测黑箱在这个输入函数的刺激下，产生的输出函数有什么表现。

傅立叶的伟大思想有两个：一个是傅立叶级数，另一个是傅立叶变换，前者是后者的数学基础。傅立叶的洞见在于：任何一个周期函数，都可以表示为一个包含正弦与余弦函数的无穷级数之和（三角级数）。这一出现于1806—1822年间的伟大思想，从形式上看其实是泰勒级数（1715年提出）展开式在工程领域的应用。对于理工科同学来说，当第一次见到某个函数在一定条件下可以展开为该函数的一系列不同阶次导数之和的时候，会顿时领悟到数学的奇妙。

通俗地说，泰勒级数在一定条件下，总可以把某个函数展开成一个无穷级数。这样就从理论上找到了表示任意一个函数的可能性：将函数表示为一个包含无穷多项的级数，如果做近似处理，只需取这个级数的前几项就够用了。

那么，什么叫“卷积”呢？简单来说，就是一个黑箱的输出函数等于输入函数和这个黑箱特征函数的卷积。你不必管卷积的数学过程，只需要理解这一点就够了：卷积就是告诉我们，一个黑箱的输出信号（输出函数）与输入信号（输入函数）及这个黑箱自身的特征函数有关。在已知输入函数和特征函数时，求解输出函数的过程，叫作“求卷积”，实际上就是计算傅立叶积分的过程。

傅立叶变换的美妙之处在于：它把这一几乎不可能计算的积分求解过程，转换成两个特定函数的乘积。稍微专业一点的说法是：将对一个函数求解其微分方程的过程，转化为求解其三角级数的傅立叶积分的过程。经过这一变换，立刻让另一个问题得到了解决：如何从特定的输入函数和观测到的输出函数推算黑箱的特征函数？既然傅立叶变换将难解的积分问题转化为乘法，那问题就迎刃而解了。根据输入函数和输出函数求解黑箱的特征函数，无非是傅立叶变换的逆运算而已，你也可以把它理解成一次除法运算。

傅立叶变换让电子工程进行波形分析、对象特征函数提取成为可能。进而，傅立叶变换被提出150年后，成了今天人工智能学习算法的基础，即提供了以黑箱的视角，推测目标对象的特征函数的可能路径。

由此来看，人工智能在视觉系统上的应用，以及一切所谓深度学习（deep learning）算法，从数学角度上看，无非是使用20世纪七八十年代的多层神经网络（multilayer neural network），通过傅立叶变换来求解对象的特征方程的过程。

人工智能应用ConvNets分为两个过程：第一个过程是猜测对象的特征函数，也就是为对象建模的过程（识别）；第二个过程则是根据对象的输入-输出响应序列，进一步调节对象参数的过程，这一过程也是“学习”的内在含义。也就是说，做卷积分析，就是面对一个不知其内部构造如何的对象，通过输入一个已知的函数，观察输出函数，最终给出对目标对象内部构造的一个猜测。

在应用深度学习算法的时候，人们通常会将数据集分为“训练集”和“测试集”两个部分：前一个部分的数据集，用来做猜测，猜测对象是什么东西；后一个部分则用以对在训练集上取得的成果进行验证并优化相关参数，以便更准确地适应不同形态的对象。

深度学习又分为监督学习和无监督学习两种。监督学习，事实上就是通过人机交互，明确告诉算法猜对了还是猜错了。这种学习过程需要人机交互，也需要明确的关于对象的先验知识，其应用场合是受限的，且效率低下。无监督学习则是需要学习机自行判断结果是否恰当，进而优化判别参数。比如生成式对抗网络（GAN）应用的就是无监督学习，它可以根据此前的学习结果，构造出全新的模式（全新的猫或者狗），来拓展对象认知的边界。当然，无监督学习仍然需要人为的干预，因为说到底，学习算法并不“认识”这个世界。

从对计算机视觉领域人工智能的分析可以看出：目前，强大的人工智能依然在练习认识这个世界，认识自己的工作，而其所仰仗的无非是两样东西——强大的算力（比如神经网络可以做到上百层，过去只能做到几层）、傅立叶分析。归根到底，对于世界究竟是什么样的，机器自己是没有任何真实的感知的，依然需要人的干预和解释。

了解当下人工智能非凡表现的技术背景，可以让非专业读者也能把握住技术的“本领”究竟位于何处。作为控制论创始人的诺伯特·维纳曾这样说：“我们最好非常确信，给机器置入的目的正是我们真正想要的目的。”也就是说，机器的任何表现都先天地面临一个重要的束缚，而这种束缚恰恰来自人，是人在教育机器这个“孩子”，是人在给这个“孩子”注入灵魂。

然而，人给机器吹一口仙气儿，机器就有灵魂了吗？问题恐怕没这么简单。

人工智能的“能”与“不能”

在第三部分，米歇尔通过讨论游戏中的人工智能来进一步说明这一点。

用人工智能算法练习打游戏，是挖掘算法潜能、理解算法机理的有效途径。智能算法打游戏基本都是无监督学习的过程，典型的比如《打砖块》游戏，人不能事先给机器注入太多游戏策略，或者有利于获胜的先验知识，只能把游戏规则灌输给算法，剩下的就全看机器自己的“修炼”了。

通过前面的简要分析，大家理解了ConvNets中最重要的是参数调节，在游戏领域就是机器的游戏策略选择。事先存储再多的游戏策略，在暴力算法面前其实也是不堪一击的，这其实是AlphaZero最终完胜人类的奥秘。人类棋手或者游戏玩家的“功力”往往来自经验，也就是人们积攒的大量的套路，这些套路只是针对某个封闭对弈空间的有限选择。如果机器只会模仿人的经验策略，它就不能获得独立应对意外局面的能力，机器必须进入更大的对弈空间，这就是强化学习的含义。如理查德·萨顿（Richard Sutton）所言，强化学习就是“从猜测中学习猜测”，米歇尔将其调整为“从更好的猜测中学习猜测”。

分析到这一步，其实就十分接近人工智能的核心问题了。什么是“更好的猜测”？智能机器目前所能做的，还只是“最快的猜测”，或者说“以快取胜”。目前的人工智能，往往在速度上卓尔不凡，因为它可以动辄在更大的博弈空间里处理海量的数据，表现出令人咋舌的算力水平，远远超过人类的计算能力。这种能力在让人惊艳的同时，也带有很强的迷惑性，使人误以为机器已经“沾了仙气”，比如IBM的智能机器沃森就是如此。其实这是假象，如今的人工智能，与真正的人工智能之间依然有巨大的鸿沟。什么是真正的人工智能？业界对其定义也一直争论不休，这里暂且不论。

人工智能的核心问题，依然涉及对客体对象、目标过程的认识。真正的人工智能必须有能力认识某一对象是什么。人工智能专家所找到的解决之道，其实还远不是“认识对象”的解决之道（这一点米歇尔放在本书的最后一部分讨论），而是找到了一个退而求其次的路径，就是“目标函数”的构建。

目标函数是什么？举个例子，比如玩蒙眼点鼻子的游戏。蒙眼人拿着笔走向一幅大鼻子卡通画，然后摸索着去点画中的鼻子。如果有个声音不停地提示其偏离的方向，蒙眼人就可以很快地点中鼻子。这个提示点鼻子的偏差的信息，对蒙眼人点中鼻子至关重要。想象让机器来完成这个任务，机器可以不理解什么是鼻子，什么是点，也不用明白这么做有什么娱乐的价值，但如果能给出判断点中与否的目标函数，就可以大大提高机器成功完成任务的概率。

其实，当下的人工智能算法依然停留在工程意义上，也就是说，还只是以完成任务为目标。至于做这件事的意义，则全然不在机器算法的“视野”之内。

谷歌的AlphaGo到AlphaGo Zero的演化历程，就是一个活生生的例子。第一阶段，AlphaGo向人学习；第二阶段，AlphaGo Zero自学成才。不管哪个阶段，谷歌公司的创见在于：让算法可以洞察整个盘面。为了大大减少计算的负担，并使算法可以获知距离获胜还有多远，他们使用的是蒙特卡洛方法，只要确保最优策略依然在剩下的搜索空间里就好，换句话说，比对手多预测几步就有更大的胜算。

从游戏中学习套路，人工智能是不是就早晚可以超越人类？在人工智能刚刚兴起的20世纪五六十年代就有这个论调，当年在机器上玩跳棋的亚瑟·塞缪尔（Arthur Samuel）曾乐观估计，10年内机器必然战胜人类。今天的机器算法，固然已经在棋类博弈中完胜人类棋手，但从智能角度看，与那时相比其实并无实质性的进步。也就是说，无论机器的自学能力有多强，有一件事是确定的，即游戏目标的存在。游戏规则和游戏目标作为先验知识，给出了这样一个明确的博弈边界，即这一游戏的博弈空间是有穷空间。算法的唯一目标就是赢，不管其对手是人还是另一个机器算法，也不管对弈双方是否理解游戏，或者能否欣赏游戏之美，它只追求赢。棋类游戏博弈中的“赢”，其实隐含一个假设，即游戏本身是存在赢的可能性的，比如在围棋中，平局、和棋也是“输赢”的特定形态。换句话说，就是一个有趣的、有输赢的游戏设计，其本身先天地规定了这一静态目标的成立——零和博弈。

因此，机器在零和博弈空间里完胜人类这一点，并非凸显了机器智能超群，只是进一步验证了人类的局限性和零和博弈目标的有限性。除此之外，机器所取得的成功说明不了更多。

从视觉系统和游戏，并不能看出人工智能所面临的最大的挑战在哪里。人工智能所面临的最大挑战，可能在于人们忘记了智能机器的强项依然是算力，错误地选择将今日之人工智能更多地用于人类增强中，而且将人机联合的活动空间，定义为更大的零和博弈游戏场景。

米歇尔很好地说明了这一挑战下的另一个场景，就是人工智能所面临的一个“硬核”场景：机器翻译。这是本书第四部分的内容：当人工智能遇上自然语言处理。

早在1956年达特茅斯会议提出人工智能之前，在20世纪40年代美国“科技工业共同体”建设中扮演重要角色的官方技术官员沃伦·韦弗博士就提出了机器翻译的理念。机器翻译既是特别有市场号召力的应用场景，也是检验人工智能技术思想所取得的前沿突破的重要领域，谷歌、微软、科大讯飞等公司在这方面投入了巨大的热情。机器翻译无疑是最“硬核”的人工智能难题，它难在人工智能需要直接面对“理解”这一难题。谷歌和微软等公司还将翻译的含义拓展，用智能算法给图片打标签，试图解决海量图片的识别问题。斯坦福大学开发了人工智能阅读理解项目，希望有一天能够让机器“读懂”它所面对的内容。

就在我写这篇文章的时候，旅居美国30余年，长期关注生物科技、人工智能、区块链等领域的前沿进展的企业家邵青博士，给我发来一篇来自美国硅谷的报道，这则报道的主角叫作GPT-3算法，它的发明人埃德·莱昂·克林格（Ed Leon Klinger）称：“从今天起，世界彻底改变了。”GPT-3是硅谷领先的人工智能公司OpenAI开发的第三代语言模型。这一模型的神奇之处在于，它通过分析网络上的海量文字，来预测哪些单词更可能会跟随在另一些单词的后面。让许多程序员兴奋不已的是，GPT-3被开放给所有程序员公测。

相应的报道使用了这样的表述：GPT-3竟然能直接理解自然语言。从报道中看，所谓理解自然语言，就是你可以用语音向算法提任何问题，然后它就可以给你呈现你想要的。比如你说“给我一个长得像Stripe官网的聊天App”，过几秒钟，定制好的App就推送过来了，像点餐一样方便。还不止这些，GPT-3还可以写论文、小说，起草格式合同，甚至大批量生产段子。当然，也有评论不客气地指出，GPT-3根本不懂自然语言，它只是很快而已。它的确太快了，据说它有1 750亿个参数，我们姑且认为它可以处理如此巨量的参数吧。

但是，这其实依然是一种使用蛮力进行计算的模式，仅此而已。

对于目前的自然语言项目，我可以武断地说，它们其实毫无“理解”可言，它们唯一的本领就是“见多识广”。问题在于，虽然一款智能机器可以快速遍历状态空间的更多可能性，把边边角角都扫描到，然后表现出越来越多令人惊讶的本领，甚至超过人类的表现，但是，它们依然像是“狗眼看星星”，并不认得什么叫“星图”。

意义问题：人工智能所面临的“硬核”挑战

米歇尔这本著作的第五部分落到了“意义”问题上。她指出，理解的基础是意义，意义是人工智能的真正障碍。至于这一障碍是否不可逾越，这可以成为激烈争论的话题。我感觉，米歇尔所阐述的意义问题，并不是说人工智能无法理解意义，也不是说人工智能无法创造出新的意义（当然这取决于你怎么定义“意义”），而是说，人工智能对意义的理解是否在安全边界之内——这其实也是全书开篇提到的“侯世达的恐惧”的核心内容。

为了便于大家理解意义问题，我先举一个生活中的例子。很多经常外出旅游的人都有这样的经验：即便不懂异国他乡的语言，你仍然可以用连比画带手势的方式与当地人交流，至少浅层次的生活交流大致是没问题的。原因也很明显：大量超越语言的生活常识，其实是超越文化差异的全人类共有知识，这是意义的“底座”，但机器并不具备这些共有知识，用拟人化的语言说，机器像一个探索新奇世界的婴儿，世界对它而言是全新的，它需要学会语言，但更重要的是它要学会理解沉淀在语言背后的意义。

婴儿理解这个世界的过程，是不断将自己的新奇感受装入成人的词语世界的过程，这个过程也是绝大多数真实的认知历程，当然也有“漏网之鱼”，比如日益流行的网络用语，就突破了附着在传统词语上的固有含义。意义的产生，既有漫长、深厚、难以细数的生活积淀，以及约定俗成的“能指-所指”的任意配对，也有突破词语边界的“类比”和“象征”，按米歇尔的导师侯世达的观点，这种类比和象征是“思考之源和思维之火”。

借用吉安-卡洛·罗塔（Gian-Carlo Rota）的话，米歇尔提出了一个根本性的问题：人工智能是否以及何时能打破意义的障碍？

米歇尔并未直截了当地回答这个艰难的问题，但她毕竟是侯世达的学生，她从侯世达的思想中汲取营养：这个世界是隐喻式的，我们并非确凿无疑地生活在符号世界中，我们生活在色彩斑斓的隐喻中。固然不同的文化所对应的底层逻辑之间难以互通或相互转化，甚至不同的文化隐喻所导致的生活信念彼此抵牾，但人类仍然有共享的元认知（metacognition），这一元认知是维系多样化世界的最后屏障。

从这个意义上说，人工智能所面临的“硬核”问题，并不在于机器和人谁控制谁，而在于机器成长的过程意味着什么，机器将如何成长，什么时候会变得强大，强大之后机器会是什么样子。这一系列问题将人们对人工智能的思考引向深处。人们不能总是停留在悲观或乐观的情绪选择中。天才的工程师、创新公司的CEO（首席执行官）虽然也会思考这类问题，但他们更愿意先干起来再说。硅谷的很多公司信奉的准则是：预测未来最好的办法就是把它造出来。

人们争论的焦点其实在于，当人工智能科学家和工程师兴致盎然地挑战各种边界、义无反顾地奔向临界点的时候，如果他们谦逊地将这种技术的未来，谨慎地描述为探索未知世界的诸多可能性这种程度，而不是将手中的算法不容置疑地看作必须接受的未来，那便罢了，可怕的恰恰是工程师忘记了“意义”问题其实远远超出人类目前的认知边界。

当然，无论如何机器将“长大”，并将开启自己的独立生活，创造自己的语言，甚至可能会形成与人类相抗衡的文化符号，提出自己的价值主张，创造自己的社群、艺术，甚至宗教，并与人类分享这个世界的快乐。

对这一切的思考，还缺乏一个更开放的框架，而且，这一思考还深深局限在文字，特别是英文的线性思维当中。智能机器的存在和成长，是否会拓展人类的元认知，将这一元认知拓展为人机共享的元认知？仅靠文字的思维方式，可能难以走出符号演算的“如来佛之掌”。侯世达在40多年前写作“GEB”的时候，针对人工智能提出了10个问题并给出了自己的答案，侯世达对这10个问题的思考，更多地指向形式逻辑、符号演算和线性思维天然的不足之处，这一不足之处正在于：符号思维难以超越其内生的逻辑悖论。

米歇尔仿照侯世达的做法，也在本书最后提出了6个问题——看上去都是人工智能领域亟待解决的问题，并尝试给出了自己的回答。米歇尔的回答只是众多可能答案中的一种，勇敢地面对这些基本问题并持续展开深入思考和交流的时代才刚刚开始。人工智能领域真正的挑战在于：我们需要清醒地意识到，当下人工智能的发展动力，依然来自“旧世界的逻辑”。这一旧世界的逻辑的鲜明特征就是：将人机关系看作“主体世界”和“客体世界”这两个可分离的世界。这种笛卡儿式的世界观，虽然会被巧妙地转化为“人机共生”的版本，但经过盎格鲁-撒克逊文化的改造，加上新教伦理与资本主义的强力助推，导致工程师和CEO憧憬的未来是这样的：当比赛终场的哨声降临，人们满脑子想的都是输赢。

需要看到的是，这种旧世界的世界观属于符号世界。人工智能底层思维的突破，关键可能就在于：超越这一旧世界的束缚，将婆罗门世界观中的因明 ⁽³⁾ 思想与中国春秋战国时期的名辩 ⁽⁴⁾ 思想以及古希腊的逻格斯 ⁽⁵⁾ 思想，在更大的框架下融合起来，这是一个伟大的挑战。

在2020年疫情肆虐全球期间，湛庐的策划编辑给我寄来米歇尔这本书的预读本，并提出了4个有助于理解本书的问题。在编辑的鼓励下，笔者尝试把隐藏在本书背后的思想，用尽可能通俗的语言表述出来。米歇尔的著作有一条充满探索精神的主线：第三波人工智能浪潮已经大大突破了前两波人工智能浪潮在思想上的束缚，在哲学范式上捅开了一个突破口，不只是符号表征、计算问题，更多的是意义问题。那么符号演算、视觉处理以及机器学习将如何推动人工智能走向“觉醒”？这恐怕是人工智能领域的专业人士以及普罗大众都非常关心的问题。这本《AI 3.0》的独特魅力就在于：站在前沿，深度思考，超越技术。

在米歇尔的书中，这个被她称作“侯世达的恐惧”的“硬核”挑战，就在于人工智能竞赛浪潮中最后的哨声，可能真的会成为“最后的”，如果人们不能摒弃满脑子输赢的想法的话。

人工智能这个话题，亟待科学家、工程师和人文学者之间的深度交流，更需要不同文化的人们之间的深度交流。人工智能的兴盛，不是吹口仙气儿就能实现的事，让等那一口仙气儿的机器，再等等吧。