精准学习最新章节_斯坦尼斯拉斯·迪昂著

第2章
为什么人脑的学习能力比目前的人工智能机器更强

人工智能近几年的迅猛发展，也许意味着我们已经发现了如何复制甚至超越人类学习能力和智力的奥秘。一些预言家甚至认为，机器即将统治人类。然而，这与事实相去甚远。事实上，许多认知心理学家在赞赏人工神经网络最近的发展的同时，也清楚这些机器的能力仍然十分有限。大部分人工神经网络实际上只能进行人脑在前零点几秒内进行的无意识的运作，比如接收、识别、分类一个图像并理解其含义。 ¹ 但是，我们的脑法力无边，它能有意识地、仔细地、一步一步地，在几秒钟内搜索这个图像，它还能构建这个图像在真实世界的符号表征，并通过语言与他人分享。

这样缓慢地、理智地、符号化地运作是人脑的特权。现有的机器学习无法进行这样的运作。虽然机器翻译与逻辑推理领域的研究一直在进步，但关于人工神经网络的一个常见批评是它们尝试在同一水平上学习所有事物，就好像任何问题都属于自动分类一般。这就好比对一个拿着锤子的人来说，任何东西看起来都像钉子！但是我们的脑要灵活得多，它能够很快掌握信息并分清主次，它还能在任何可能的时候提取具有普遍性、逻辑性的明确的原则。

人工智能缺少了什么

找到人工智能的缺陷是个有趣的任务，因为这也是分辨人类独特的学习能力的方法。下面是一份简短的，可能还不完整的功能清单。这些功能甚至连婴儿都具备，而目前的大多数人工智能却缺乏这些能力。

学习抽象概念。大部分人工神经网络只能掌握信息处理的初级阶段，就像脑的视觉区域在1/5秒内解析一幅图。深度学习算法的运算深度也远不及一些人宣称的那样。深度学习算法的发明者之一约书亚·本吉奥（Yoshua Bengio）认为，深度学习实际上更倾向于学习数据中浅显的统计规则，而非高层次的抽象概念。 ² 比如说，在识别一个物件时，它们经常依赖于视图中几个浅显特征的呈现，如具体的颜色或形状等。改变这些细节，深度学习算法就会崩溃。因为现在的卷积神经网络无法识别物件的核心组成，它们很难理解一张椅子不管有四只脚还是一只脚，不管是由玻璃、金属还是可伸缩塑料做成的，它都只是一张椅子。倾向于关注肤浅的特征使这些网络更容易产生大规模的差错。有许多关于如何忽悠人工神经网络的文献，比如用一根香蕉的图像，对像素做些许改变或贴上一个特殊标签，人工神经网络就会误以为该图片是一台烤面包机！

当你将一张图在某人眼前快速闪过时，人们大概率会像机器一样犯下相同错误——把狗当成猫。 ³ 但是，只要给他们多一点时间，他们就会纠正自己的错误。与电脑不同，我们具有质疑自己所相信的并将注意力重新聚焦到图像中与我们第一印象不相符的部分的能力。这样的二次分析是有意识且聪慧的，它利用了我们推理与提取抽象概念的综合能力。人工神经网络忽视了一个核心要点，即人类学习并不是图像识别过滤器的装置，而是对世界抽象模式的构建。比如，通过阅读学习，我们掌握了每一个字母的抽象概念，从而能够认出它的各种形态，还可以创造出它的各种新的形态（见图2-1）。

图2-1　字母的各种形态

认知科学家侯世达 ⁽³⁾ 曾经说过，人工智能的真正挑战在于识别字母A！这一嘲讽无疑是夸张的，但也触及了问题的核心，即便在这最微小的问题背景下，人类都能施展自己无与伦比的抽象化本领。这个壮举来源于日常生活中的一个有趣物件——验证码，即一小段字母，一些网站会让你识别它，来证明你是人类而不是机器。但计算机科学迭代迅速，2017年，一个人工智能系统以几乎拟人的程度成功识别了验证码。 ⁴ 不出所料，这种算法从多个方面模仿了人脑。这绝对是一次精心的杰作，因为它能够提取每个字母的架构，如字母A内部的短横线，并使用了所有统计推理资源来认证一个抽象概念是否适用于当前的图像。然而，无论这个算法多么精密，也只能运用于验证码。我们的脑则能将抽象化本领用于日常生活的方方面面。

高效的数据学习。每个人都同意，当今的人工神经网络的学习速率缓慢，它们需要成千上万甚至上亿的数据来发展一个领域的直觉。我们甚至还有其行动缓慢的实证。比如，DeepMind设计的神经网络至少要玩900小时才能在雅达利（Atari Consale）游戏中达到一个合理等级，而人类达到相同等级只需要2小时 ⁵ 。另一个例子是语言学习方面的。心理语言学家伊曼纽尔·迪普（Emmanuel Dupoux）推测，在大多数法国家庭中，儿童每年会听到500～1 000小时的对话。这个数据比掌握笛卡尔式的方言，包括拗口的soixante-douze（法语意为72）或s’il vous plaît（法语意为请求）要多得多。但是，对玻利维亚丛林里的提斯曼原住民来说，他们的儿童每年只会听到60小时的对话。令人惊奇的是，这有限的经验并不会阻碍他们说一口流利的提斯曼语。相比之下，当前来自苹果、百度和谷歌的最好的计算机系统需要其20到1 000倍的数据来获得些许语言技能。在学习领域，人脑的高效性仍然无与伦比。机器渴求数据，而人类可以高效地运用数据。人类的学习可以将最少的数据实现最大化运用。

社会学习。人类是唯一会主动分享信息的物种。我们通过语言向其他人学习。这一本领是目前的人工神经网络无法企及的。在这一模式中，知识被加密，在数以亿计的突触权重值（synaptic weights）中被稀释。在这个隐蔽的形式下，它无法被提取并选择性地分享给他人。相反，我们的脑可以有意识地感知最高级的信息，从而使我们能明确地向他人说明。有意识的知识与口头表达相辅相成，每当我们足够清楚地理解某件事物时，头脑中一个公式与想法的语言就会形成呼应，然后用语言表述我们的理解。我们在与他人分享信息时会使用最少的词汇（如“教堂后面那条小路右转就到市场了”），这样非凡的效率仍是动物界和计算机界无法企及的。

一次性测试学习。一个极端例子是我们通过一次测试就能学会一项新东西。如果我们介绍一个新动词，就拿purget ⁽⁴⁾ 来说，哪怕只介绍一次，你就学会如何运用它了。当然，一些人工神经网络也能储存一个具体的片段。机器尚无法做到而人脑能够轻而易举地做到极致的，是将新信息综合到已存在的知识系统里。你不仅会记住purget这个新词，你还能立马知道它的时态变化形式以及如何把它放入其他句子：Do you ever purget? I purgot it yesterday. Have you ever purgotten? Purgetting is a problem．当你说“Let’s purget tomorrow”时，你不仅仅是在学习一个单词，你也在将它插入一个符号与规则的巨大系统，即它是一个具有不规则过去分词的动词（过去式和过去分词分别为purgot、purgotten），并且在现在时中具有规则的变化（I purget、you pueget、she purgets等）。学习就是成功地将新知识纳入已有的知识网络的过程。

系统性以及思想的语言。人脑能够在具体事例背后发现普遍规律，语法规则只是这独特天分中的一个例子。不论是在数学、语言、科学领域，还是在音乐领域，人脑都能从中提取抽象原则、系统规律，从而再运用到不同情境中。以算数为例，我们将两个数相加的能力是非常普遍的，一旦我们学习了较小数字的加法，便可以将之系统化，并任意运用到更大的数字的加法。更为出色的是，我们可以得出非常普遍的推论。许多五六岁的儿童就能发现任意一个数字 n 都有一个后续数字 n +1，那么所有整数的序列是无限的，且没有最大的整数。我仍感怀自己第一次发现这个规律的时刻，实际上那是我知道的第一个数学定律。抽象化的力量是卓越的！我们脑中的神经元是有限的，那么它是如何构建出无限的概念的呢？

如今的人工神经网络无法表达“每个数字都有一个后续数字”这样简单的抽象定律。总结绝对真理不是它们所擅长的。系统性 ⁶ 是在符号规则基础上进行总结的能力，而不是肤浅的同质化。它仍然困扰着现行人工神经网络的运算。具有讽刺意义的是，所谓的深度学习算法几乎完全无法进行任何深刻的思考。

然而，我们的脑似乎具有用一种思维语言构建方程式的流畅本领。比如，它可以表达无穷集的概念，因为脑具有一个内部语言，其天生就具有否定（negation）和量化的抽象功能（无穷＝非有限＝超越任何数字）。美国哲学家杰里·福多尔（Jerry Fodor）根据这项能力发展了一个理论，他认为，我们的思考包含了会根据“思想的语言”的系统规则来组合的符号。 ⁷ 这一语言的力量源于其循环往复的天性，即每个新创造的客体（比如“无限”这个概念）都可以不受限地立刻被重新使用在新的组合里。有多少无限可能存在着？数学家格奥尔格·康托尔（Georg Cantor）问了他自己这个看似荒谬的问题，却引导他构建了超限数理论。威廉·冯·洪堡（Wilhelm von Humboldt）认为，对有限方法进行无限使用的能力就是人类思维的特征。

一些计算机科学模式尝试掌握儿童对抽象数学规律的习得。但是它们不得不结合一种完全不同的学习方式，这是一种涉及规则和语法，并能在最短时间内选择出最合理规律的学习方式。 ⁸ 在这一观点中，学习变得与编程相似，即它包括了从思维语言的所有选项里选择出符合数据的最简单的内部公式。

现行的人工神经网络大部分无法表达人脑模拟世界时所运用的一系列抽象词组、公式、规则和理论。这大概不是巧合，因为这当中涉及人特有的一些东西，一些不曾在动物脑中发现的、也尚未被现代神经科学解释的、人类独有的面貌。在灵长类动物中，似乎只有人脑能根据一个复杂的树状句法的组合来表征一组符号。 ⁹ 比如，我的实验室数据发现，人脑在听到一连串的声音，如“哔哔哔啵”时，会不由自主地将其背后的抽象结构（3个相同的声音之后是一个不同的声音）理论化。在同样情况下，猴子探测到了连续的4个声音，发现最后一个声音的不同，但似乎不会把这样的片段性知识整合到一个单独的公式里。我们认识到这一点，是因为在检测猴子的脑活动时，我们看到数字和序列回路明显地活跃起来，但从来没有在被称为“布罗卡区”的人类语言区 ¹⁰ 观察到整合性激活。

类似地，猴子需要几万次测验才会理解如何将序列的顺序颠倒（从ABCD转变成DCBA），而对一个4岁的孩子而言，尝试5次即可 ¹¹ 。甚至几个月大的婴儿就已经能够用抽象和系统的规则编码外部世界。这是人工神经网络和其他灵长类物种完全无法企及的能力。

组合。一旦我们学会了两个数字相加这样的本领，这个能力就会变成我们的整体才能中的一部分，即刻就能被用于达到其他目标。我们可以在各种情况下把它用作子程序，比如在餐厅付钱时，或检查我们的税表时。最重要的是，我们能把这项能力与其他习得的技能重组，比如，我们可以轻松地根据一个运算指令，在一个数字上加上2，然后判断其结果大于还是小于5。 ¹²

令人惊讶的是，当下的人工神经网络尚未显示出这样的灵活性。它们习得的知识还局限于隐秘的、无法获取的联结中，从而很难将它重新运用于其他更复杂的任务中。将之前所学技能进行组合的能力，也就是重组技能并运用于解决新问题的能力，超越了当下的人工神经网络模型。如今的人工智能只能解决极其有限的问题：AlphaGo程序虽然打败了所有围棋冠军，却是一个固执的“专家”，它无法将其才能运用到其他的游戏中，哪怕这个游戏只与围棋有些许差异，如使用15×15的棋盘，而不是19×19的标准棋盘。而在人脑中，学习几乎总是代表着使知识显性化，从而使之被再次使用、重组，并能向他人解释。我们再次看到了人脑独有的本领，与语言相关且已证实无法被机器复制。早在1637年，笛卡尔在其名著《方法论》（ Discourse on Method ）中就预测了这个问题：

如果存在与我们的身体相似并尽可能真实地模仿我们行动的机器，总有两条确凿的途径来识别他们不是真正的人类。第一条途径是，机器绝不可能像人一样，能通过讲话或组建其他符号来向他人表达自己的想法。我们能很容易地想象，一台机器的制造方式使它能够说话……但它无法将词语以不同方式排列以回应在其面前所说的一切话，而最愚笨的人都能做到这一点。第二条途径是，即便它们能与人类媲美，把许多事做好，甚至比任何人都做得更好，它们也绝对会在其他事情上失败。由此我们可以发现，机器的行动不是以知识为基础的，而仅仅只是由其零件的属性决定的，因为理性是一种能被用于各种情况的普遍工具，而机器零件需要对每一个特定的行为作出特定的处置。

理性是思维的普遍工具……笛卡尔列举的思维能力指出了第二个学习系统，它是基于规则和符号的，并在层级上高于前一个系统。在这个学习系统的早期阶段，我们的视觉系统与现行的人工神经网络有些许相似：它学会过滤收到的图像并识别常见的结构。这个能力足以帮助我们识别一张脸、一个单词或围棋的局面。但是，这个学习系统的处理风格接着会发生根本性的改变：学习向推理靠拢，即尝试去掌握领域规则的逻辑推断。创造出具有这第二层智能的机器，对现代人工智能研究是巨大挑战。让我们看看定义人类在这个层级中如何学习的两个要素。它们超越了当下大部分的机器学习运算。

学习是对领域语法的推理

人类的特征之一是不懈地搜寻抽象规则，从一个具体情况及随后在新情况的测试观察中提取出高级别的总结。尝试构建这样的抽象定理可谓非常有力的学习策略，因为大部分抽象定理恰恰就是适用于最多观察的规则。大规模加快学习的终极方法，就是找出能解释所有已知数据的合适定理或逻辑规则，而人脑深谙此道。

我们来看一个例子。想象一打不透光的盒子，里面装满了各种颜色的球。我随机抽选了一个从没有被动过的盒子，伸手进去抽出了一个绿色的球。你能推断盒子里的内容吗？下一个球的颜色会是什么？

第一个进入脑海的答案大概是：我不知道。你没给任何有用信息，我怎么可能知道下一个球的颜色？这可以理解，但是想象一下，我曾从其他盒子里抽取了一些球，你注意到了如下规则：在一个既定盒子里，所有球都是一个颜色。那么这个问题就变得容易了。当我向你展示一个新盒子，你只需要抽出一个绿球就能推断出其余所有球都会是绿色。有了这个普遍规律，仅通过一次测试就能判断结果。

这个例子阐释了高级别知识，常常在所谓的“元”级别中形成，能引导一整个系列的低级别观察。“在一个既定盒子里，所有球的颜色都相同”这一抽象的元规则，一旦被人脑习得，便能大规模地加速学习。当然，它也可能是错的。如果第四个盒子里有所有颜色的球，你会非常震惊（或许我该说“元”震惊）。如果错误发生，你就得修正自己的思维模式，质疑所有盒子都有相同颜色的球的假设。也许你会提出一个更高级别的假设，一个“元-元”假设，比如，你可能会猜测这些盒子有两种：单色的和多色的。这样，要得出任何结论，你就必须至少从每个盒子里抽取两次。在任何情况下，构建一个层级式抽象规则都能帮你省下宝贵的学习时间。

因此，在这一情境下，学习意味着管理内部规则层级，并尝试尽快推导出能归纳整个系列观察的最普遍规则。人脑似乎从儿童时期就开始运用这个层级原则了。就拿一个两三岁的孩子来说，他与父母走在花园里学习新词，比如蝴蝶。通常情况下，只需要听这个词一两次，这个孩子就足以记住它的意思了。这样卓越的学习速度超过了当今任何已知的人工神经网络。这个问题为什么如此困难？因为说出每个词的时候不会完全限制其意义。说出蝴蝶的时候，通常是当一个孩子身处复杂环境中时，周遭是花、树、玩具和人，所有这些因素都是这个词潜在意义的候选项。还有其他较不明显的意义，如我们生活的每个时刻里充斥的声响、味道、活动、行为，还有那些抽象背景。正如我们所知，蝴蝶可以代表颜色、天空、移动或对称性。抽象词汇的存在使这个问题越发令人不解。如果无法感知或体验参照物，那么儿童是如何学习“思考”“相信”“不”“自由”“死亡”这些词的意义的？每当孩子们听到演说者谈到自己用“我”这个字时，他们是如何理解“我”的意思的？

抽象词的快速学习与巴甫洛夫的经典条件反射（Pavlovian conditioning） ⁽⁵⁾ 或斯金纳的操作性条件反射（Skinnerian association） ⁽⁶⁾ 一样，与单词学习的天真观点不相容。仅仅试图将输入与输出、图像与单词联系起来的神经网络，通常需要进行数千次试错，才能开始理解蝴蝶这个词指的是图像角落里的那只颜色鲜艳的昆虫……而这种将单词与图片联系起来的肤浅做法，永远不会发现没有固定参照物的单词的含义，比如“我们”“总是”或“气味”。

词汇习得的机制对认知科学来说是一项巨大挑战。我们知道，解决方案的一部分在于儿童建构非语言的、抽象的、逻辑性的表述能力。甚至在他们学会第一个单词之前，儿童就已经拥有一种思想的语言，他们可以在其中建构并测试抽象的假设。他们的脑不是白板，而他们投射到外部世界的先天知识可以极大地限制他们所处的学习的抽象空间。此外，儿童很快就能学会单词的含义，因为他们在选择假设时，会以一整套高层次的规则作为指导。这种元规则会极大地加速学习，与盒子里的彩色球问题异曲同工。

帮助词汇习得的一个准则在于选择符合数据的最简单、最小的假设（见图2-2）。比如，当一个婴儿听到母亲说“看这只狗”时，理论上，没什么理由会妨碍我们将“狗”这个字指代那只特指的狗（史努比），抑或将其指代任何哺乳动物、有4只脚的生物或活体。儿童如何发现词语的真实意义，比如“狗”代表且只代表所有狗？实验发现，儿童会通过测试所有假设，但只保留符合他们所听到的最简单的那个假设来进行逻辑推理。因此，当儿童听到“史努比”这个词时，他们总是处在这个特定宠物的语境下，符合环境特征的最小范围的假设则局限于这只特定的狗。而且，当儿童第一次听到“狗”这个词时处于单一具体环境中，他们可能暂时会认为这个词只代表了那只特别的动物。但是只要他们在不同环境下再次听到这个词两遍，就能够推断出这个词指代的是狗这整个类别。这个过程的数学模型预测，三四个实例就足够汇聚出一个词的合适意义。 ¹³ 这样的儿童推理比当下的任何人工神经网络都要迅速。

图2-2　脑解释形态的基本原理

学习意味着尝试选择符合数据的最简模型。假设我向你展示a 图并告诉你那3 个被黑色实线包围的物体就是“石灰花”。在缺乏数据的情况下，你怎么找出其他石灰花呢？你的脑会产生一个模型来解释这些形态是怎么产生的，即建一个层级式属性树状图（b图），然后从分支中选择符合数据的最小支。

还有一些其他的诀窍使得儿童比当今人工智能系统能够更快速地学习语言。其中一个元规则是，通常情况下，说话者会专注于自己说话的内容。一旦婴儿理解了这个规律，他们就可以极大地缩小自己搜寻意义的抽象空间。在孩子们获得足够数据证明每当听到“蝴蝶”这个词时都有一种小巧的彩色的昆虫出现以前，他们不必像计算机一般将每个词都与视觉情境中的物体相关联，孩子会随着母亲的视线方向或所指的方向来推断她在说什么。这项语言学习的基本原则被称作“共享关注”（shared attention）。

有一个简单的实验：向一个两三岁的孩子展示一个玩具，然后让一个成人盯着玩具说：“噢，一个沃格（Wog） ⁽⁷⁾ ！”一次实验就可以让这个孩子领会到“沃格”是那个玩具的名字。现在来重复这个情境，但是成人不再说话，而是由一个安装在屋顶的扬声器播放“噢，一个沃格”。孩子在这种情境下基本上学不到任何东西，因为他无法理解说话者的意图。 ¹⁴ 共享关注这一原则使得孩子学会了抽象概念的全部词汇。这需要他们将自己置身于说话者的视角，去理解说话者指代的具体想法或词语。

儿童还会使用其他许多元规则来学习词语。比如语法背景。当有人对他们说“看那只蝴蝶”时，定冠词“那只（the）”的出现意味着接下来会是一个名词。这也是他们必须学会的元规则。儿童并非生来就知道每门语言的所有冠词，但研究显示他们对这类语言的学习非常迅速。幼儿在12个月大时就已经学会了最常见的定冠词和其他功能性词，并用它们来指导自己后续的学习。 ¹⁵

儿童能做到这一点是因为这些语法词汇频繁出现，且它们几乎是固定出现在名词或名词词组之前。这看起来像循环论证，但并非如此。婴儿从6个月大时开始学习名词，比如最常见的奶瓶和椅子……然后他们会注意到这些词之前有一个常用冠词……他们便推断这些词大概属于同一个类别——名词。这些名词通常又指代物件……当孩子听到一个新读音，比如蝴蝶时，元规则就驱使他们从周围物体中搜寻一个可能的含义，而不是把它当作一个动词或形容词。每个学习情境都在强化这个规则，并推动后续的学习，在每天的大范围实践中加速学习。发展心理学家认为，儿童依赖自举法，通过一系列小型且系统化的推理步骤，逐渐自行发展出语言学习运算能力。

“互排性假设”（mutual exclusivity assumption）是儿童用来加速词汇学习的另一个元规则，被简洁地表述为“一物一名”。这个元规则认为两个不同的词通常不会指代同一个概念，一个新词只能指代一个全新的物体或概念。有了这条规则，儿童只要听到一个不熟悉的词，他们就会限制对自己尚不清楚名字的物体的含义搜索，一般16个月大的儿童就能敏捷地使用这个规则。 ¹⁶ 试试下面这个实验：拿两个碗，一个是蓝色的，另一个的颜色新颖，比如橄榄绿。要求孩子“给我那个淘滴 ⁽⁸⁾ （towdy）碗”。他通常会给你那个非蓝色的碗，因为他认为如果你说的是蓝色的那个碗，你就会用“蓝色”这个词。既然没用，说明你要的是另一个未知颜色名字的碗。而这一次的经历就足以让他记住这个奇怪的颜色叫做“淘滴”了。

我们再次见证了掌握元规则是如何大规模加速学习的，而这些元规则很有可能是后天习得的。的确，一些实验指出，双语家庭的儿童比单语家庭的儿童更少地使用这些元规则。 ¹⁷ 双语环境使孩子意识到自己的父母能用不同的词来指代同一件东西。单语家庭的孩子则发现无论父母何时使用新词汇，大概都是想让他们学习一个新物体或概念。如果我们在一个放满类似物件的房间说：“给我这个嘉利士。”孩子们会到处寻找我们说的这件谜一样的东西，而且他们不会认为我们可能指的是一件他们已经知道的东西。

所有这些元规则都阐释了所谓的“抽象之福”（blessing of abstraction）——最抽象的规则是最容易学的，因为儿童听到的每个词语都为之提供了支持证据。因此，类似“名词前一般要加定冠词”的语法规则可能在儿童发展早期就被习得了，并会指导随后的名词词汇的学习。因为抽象之福，儿童在两三岁时会进入一个“词汇爆炸”时期。在这期间，他们能够在只基于有限线索的情况下，每天轻松学会10～20个新词，而这些简单的元规则却正是阻碍机器算法进步的关键。

使用元规则似乎需要足够的智能，但这并非人类物种独有的。从某个程度上来说，其他动物也能进行抽象推理。就拿牧羊犬里克来说，它的训练包括捡起各式各样的物体。 ¹⁸ 你只需要说：“里克，去捡那个恐龙。”这只动物就会进入游戏房间，几秒后嘴巴里叼着恐龙毛绒玩具回来了。测试他的动物行为学家发现，里克知道大约200个词。最令人振奋的发现是，里克也会使用元规则来学习新词。如果你告诉他：“里克，去捡那个斯克里德（sikirid） ⁽⁹⁾ 。”它总是能叼回一个他不知道名字的新物件。它也会使用“一物一名”这样的元规则。

数学家和计算机科学家已经开始尝试让机器学习层级式规则、元规则和元-元规则，直至任意水平的运算。在这些层级式运算学习中，每一个学习情境不仅会限制低级参数，也会规范高级的抽象参数，从而引导后续的学习。虽然它们的效率尚无法媲美人类的语言学习，但也有了值得赞赏的表现。例如，彩图4显示了最近研发的机器算法如何像寻找外部世界最佳模型的科学家一样行事， ¹⁹ 这个系统具有一套抽象原始参数，还有能通过重组基础规则使之制造出无限更高阶结构的语法。比如，它能够将一条线性链定义为一组紧密相连的点，这个定义的特征是“每个点有两个相邻的点，一个在左，一个在右”；这个系统还能够自己去发现这条线性链是代表一组整数（从零到无限）的最佳方式。该语法的一个变形会产生一个二元树状结构，每一个茎节点都有一位家长和两个孩子。这样的树状结构是在当系统被激活时被自动选出来的。这个机器就如人工达尔文一般，会自动自发地去重新发现生命之树！

彩图4

麻省理工学院的两个科学家发明了一种算法，被用来研究科学领域的隐藏性结构。这种算法有个语法规则可以组合出所有新的结构，如线条、平面、圆弧、圆筒……运用这种算法，科学家们论证了动物系统进化树（达尔文）、地球是圆形的〔巴门尼德（Parmenides）〕以及牛顿色环（牛顿）。

组合这些规则还会制造出平面、圆柱体、球体，其算法还能让这些结构符合地球的地理结构。这个算法的升级版本还能表达更抽象的概念。例如，美国计算机科学家诺亚·古德曼（Noah Goodman）和乔希·特南鲍姆（Josh Tenenbaum）设计了一个可以得出因果关系原则的系统。 ²⁰ 构建该系统的是一个深奥的数学公式；在一个直接、非循环的联结各个变量的图形中，存在着一个变量子集，其他子集也都依赖于这个子集。这句话很难理解，我引用它是因为这个例子完美描述了这种思维语法所能够表达和测试的一种抽象的内部公式。这个系统会测试上千个公式并保留那些符合输入资料的，从而快速演绎出了因果原则（假如输入的感知经验一部分是原因，而其他的都是结果）。这个例子也论证了抽象之福：这样的高层级假设可以大规模加速学习，因为它将可选假设的搜索范围大幅缩小了。由此，一代又一代的孩子不断地追问着“为什么？”以搜寻可能的解释和原因，这也为人类不断追寻科学知识提供了燃料。

根据这个看法，学习包括从一组众多的人脑思维语言数据中，选出最符合外部事物对应的那一个。我们很快就会看到，这是儿童所拥有的一个卓越模式。他们就像一个个刚出道的科学家，构建理论并将之与外部世界进行比较。这意味着儿童的思维表征比当下的人工神经网络要结构化得多。从出生起，儿童的脑中就已经具备了两个核心成分：能使制造出丰盈的抽象公式成为可能的所有机械装置（即思维语言的组合），以及根据数据的合理性明智选择出合适公式的能力。

这就是脑的新版本 ²¹ ：一个巨大的假设生产模型，制造层级式假设的规则和结构并实现大规模的结构化，同时又能逐渐限制自己以符合现实。

学习就是像科学家一样推理

脑是怎么选择最佳假设的？外部世界的模型应该基于怎样的标准来被接受或被拒绝？事实上，有一个理想策略来回答这些问题。此策略的关键在于近些年发展出的一些有效学习理论的核心，即“脑像一个刚出道的科学家一样行事”这一假设。根据这个假设，学习就是像一个优秀统计学家一样在几个备选理论中选择正确率最高的一个，因为它最能解释既有数据。

科学推理的原理是什么？当科学家构建一个理论时，他们不只是写下数学公式，还要做预测。一个理论的优势在于其原始预测的丰富性。随后对这些预测的确认或推翻决定了这个理论的有效或失败。研究者会运用一个简单逻辑：陈述几个理论，揭示他们的一系列预测，然后排除那些预测不被实验和观察确证的对应理论。当然，单一实验不足以论证，为了区分真实结果与误差，不同实验室进行几次复制实验通常是必要的。重述哲学家卡尔·波普（Karl Popper）的话：随着一系列推断与驳斥对一个理论的推进性完善，无知就会逐渐衰落。

科学缓慢的进展与我们的学习相似。随着我们的脑通过观察越发准确地构建关于外部世界的理论，每个人思想里的无知会逐渐消退。但是，“孩子是刚出道的科学家”难道不是一个模糊的比方吗？不，它实际上是一个关于人脑如何运作的精准表述。而且，在过去的30年间，“刚出道的科学家”这个假设引领了一系列关于儿童如何推理和学习的重大发现。

数学家及计算机科学家很早以前就已经从理论上说明了在不确定性面前推理的最佳方式。这一精准理论被称为“贝叶斯”，是以其发明者托马斯·贝叶斯的名字命名的。贝叶斯是一位英国长老教会的牧师，也是一位数学家，后来成为皇家学会的成员。或许我们得称这个理论为“拉普拉斯式理论”（laplalian theory），因为是伟大的法国数学家皮埃尔-西蒙·拉普拉斯（Pierre-Simon Laplace）将其第一次正式推出的。不论它的古老源头为何，这个观点直到最近20年才开始获得认知科学及机器学习领域的重视。越来越多研究者开始意识到，只有扎根于概率理论的贝叶斯理论才能确保从每个数据点中提取信息的最大化。学习就是要从每一个观察中提取尽可能多的推断，即使这个推断是很不确定的。而这正是贝叶斯理论管用的原因。

贝叶斯和拉普拉斯究竟发现了什么？简单来说，推理的正确方法就是通过概率来推理，从而追溯每个观测结果最有可能发生的原因，无论观测结果多么微小。让我们先回到逻辑的基础。古时起，人类就已经知道如何基于真相进行推理，真或假。亚里士多德发明了被我们称为三段论的推理准则，我们或多或少都会通过直觉运用它们。比如， modus tollens ⁽¹⁰⁾ （直译为“否定的方法”）认为，如果由P可以推出Q，而Q被发现是假的，那么P一定也是假的。这就是福尔摩斯在《福尔摩斯探案集·银色马》（ Silver Blazer ）中所使用的原理。

“还有其他什么地方需要我注意的吗？”伦敦市警察厅的格雷戈里警官问道。

福尔摩斯：“我很好奇当晚那只狗干了什么。”

格雷戈里：“那只狗那天晚上什么都没做。”

福尔摩斯：“那正是有趣的地方。”

福尔摩斯推断，如果那只狗看到了陌生人，那他一定会叫。由于他没有叫，犯罪者就一定是狗熟知的人……推理帮助这位知名侦探缩小了搜索范围并最终揪出了罪犯。

“这与学习有什么关系？”你也许会这样问。好吧，因为学习也像侦探推理一样，为了能推导出最能解释现象的模型，它需要追溯隐藏的源头。但在现实世界里，观察从来无关对错，它们具有不确定性和概率。这也正是贝叶斯和拉普拉斯的核心贡献所在。贝叶斯理论告诉我们如何以概率来推断，当数据不完美、对错有一定概率时，我们必须运用什么样的三段论。《概率论：科学的逻辑》（ Probability Theory: The Logic of Science ）是统计学家杰恩斯（E. T. Jaynes）写的关于贝叶斯理论的一本非常好的著作 ²² 。他在书中展示了所谓的概率不过就是我们对不确定性的表达罢了。这个理论用精确的数学理论表述了当我们进行新的观察时，不确定性的演绎所必须遵从的规则。它是逻辑在概率和不确定性领域中的完美延伸。

下面这个例子与贝叶斯在18世纪建立其理论时所用的例子相似。假设我看到某人投掷一枚硬币，这个人用的是普通硬币，没有作弊，那么投掷出字面或花面的可能性就是平等的，即50对50。根据这个前提，古典概率理论告诉我们如何计算观察到一定结果的概率（比如连续获得5次花面的概率）。贝叶斯理论则让我们穿越到相反的方向，从结果反推原因。它用数理知识精确地告诉我们如何回答“几轮投掷过后，我应该改变对硬币的看法吗”这样的问题。原始假设是，这个硬币是“公正”的……但是，如果我观察到已经有20次都投出了花面，我就得修改我的假设：这个硬币基本上可以肯定是被动过手脚的。很明显，我的原始假设已经变得不可能，但是有多不可能呢？这个理论准确解释了如何在每次观察后更新我们的观点。每个假设都被附上一个与可能性或置信等级相对应的数值。对每一次观察来说，这个数值会根据观察结果的不可能性程度而改变一个数值。就像在科学中，一次实验性观察的不可能性越高，它就越发违背最初理论的预测，我们便能更自信地推翻这个理论并寻找其他解释。

贝叶斯理论是非常有效的。第二次世界大战期间，英国数学家艾伦·图灵（Alan Turing）曾用贝叶斯理论来破解恩尼格码。那时，德国军事信息用恩尼格码密码机加密，它是一个由齿轮、转轴及有线电组成的复杂精细仪器，可以制造出上亿种不同字母组合。每天早晨，编码者会按照当天长官的特殊指令编码，恩尼格码密码机就会形成一组字母排列，只有拥有加密口令的人才会解码。对其他人来说，这组字母看上去完全没有顺序可言。图灵的聪明之处就在于：他发现如果两台机器的初始设定是一样的，输出的字母分布就只有些许差异，这个差异非常小，以至于没有任何单一字母能得出确切结果。然而，通过大量积累这些不可能性，在对比一个又一个字母之后，图灵得以搜集越来越多证据证明被使用了两次的是同一设定。基于此，加上当时被称为“炸弹”（电脑的前身，一个大型的、发出滴答声的电子机械设备）的装置的帮助下，他和他的团队频繁破解了恩尼格码。

这与我们的脑又有什么关系呢？有，因为同一种推理似乎也发生在大脑皮层中。 ²³ 根据贝叶斯理论，脑的每个区域会构建一个或多个假设并将对应的预测发送到其他区域。这样，每个脑模块会通过交换关于外部世界的概率性预测信息，限制下一个脑模块的假设。这种信号处理方式被称为“自上而下”，因为它们始于高层级的脑区，比如前额叶皮层，然后向下到达低层级的感觉区域，比如初级视皮层。这个理论认为，这些信号就是脑认为可行的并且愿意去测试的假设。

在感觉区域，这些自上而下的假设会与来自外部世界的“自下而上”的信息，比如从视网膜进入的信息碰面。这时，模型会与现实相切磋。贝叶斯理论认为脑应该计算出一个误差信号，即模型预测出的与实际观察结果之间的差异。然后，贝叶斯理论会指出如何使用这个误差信号来改善关于外部世界的内部模型。如果没有错误，就意味着这个模型是正确的。否则，误差信号会将脑区链提升并调节模型的参数。很快地，这个运算就会整理出一个符合外部世界的心理模型了。

根据这个关于脑的观点，成人的判断包括两个层级的观点：人类物种天生具备的知识（贝叶斯派学者称之为先验，通过进化继承的一系列可能假设），以及我们个人掌握的知识（后验：基于生命中积累的所有推理，修正后的先验假设）。这个观点终止了关于“先天与后天”的经典争论。脑的结构为我们同时提供了有力的始发工具和同样强大的学习机能。所有知识都必须基于两个部件：一是我们与环境互动前就存在的一组先验假设；二是一旦我们经历过真实数据，就能够根据后验可能性来区分这些先验假设的能力。

我们可以从数理的角度来阐释贝叶斯理论是最佳的学习方法。它是提取学习情境的核心及从中获得最多信息的唯一方法。哪怕只有一点儿信息，就像图灵从恩尼格码中发现的可疑巧合一样，也足够学习了。一旦系统开始处理信息，就像一个优秀统计学家耐心收集数据一样，最终都必然会带来足够的数据以推翻一些理论，以及证实另一些理论。

脑真的是这样工作的吗？它能够从出生起就提出大量的假设并学习从中进行选择吗？它会根据观察到的数据有多符合假设来对其进行消除和选择吗？婴儿从出生起就像聪明的统计学家一样吗？他们会从每次学习经验中提取尽可能多的信息吗？让我们来近距离探究一下关于婴儿脑的实验数据。

第2章 为什么人脑的学习能力比目前的人工智能机器更强

人工智能缺少了什么

学习是对领域语法的推理

学习就是像科学家一样推理

第2章
为什么人脑的学习能力比目前的人工智能机器更强