第一章
为何是现在？

我们生来啼哭，啼哭预示着语言的萌动。德国婴儿的哭声反映了德语的旋律；法国婴儿的哭声体现了法语的旋律，这看上去在出生前就形成了（Mampe et al . 2009）。出生后的一年左右，婴儿们便能掌握他们语言的声音系统，再过几年之后，他们已经能与照料者交谈了。一直以来，这种非同寻常的、人类独有的习得语言的能力，即“语言官能”（faculty of language）——引发了一系列重要的生物学问题，诸如：语言的本质是什么？它如何运行？又如何演化？

本文集讨论第三个问题：语言的演化。生成语法自20世纪中期诞生之初便对语言的演化有着强烈的兴趣，这一点虽然有些异议，但却是事实。生成语法首次寻求为语言——语法——提供明晰的解释，即能够解释我们下文所说的语言的“基本特性”：语言是一个有限的计算系统，能够生成无限的表达式，每个表达式在语义—语用与感知运动系统（通俗来讲，即思维与声音）都可以得到确定的诠释。刚开始处理这个难题时，任务似乎令人难以招架。众多语言学者用了全身解数所构建出来的语法只能勉强覆盖语言事实，但却极其复杂，当时很清楚的一点是，它们是不具有可演化性的。正因如此，除有个别显著的例外，关于语言演化的讨论很少能够公之于世。

那么，这些年来发生了哪些变化？首先，语言学理论更加成熟了。复杂的语言规则系统已成为过去，取而代之的则是大大简化的、从演化进程来看似乎也是更为可信的解释。此后，与语言相关的一些重要的生物组分，它们的生物学和遗传学性质得以查明，尤其是负责发声学习与产出的“输入—输出”系统——它构成我们称之为“外化”系统中的一部分，其性质我们已经基本清楚了。因此，我们可以有效地采取“分而治之”的策略：聚焦于语言更为核心的特性，而将外化的感知运动系统先置之一旁。

由于缺乏充足的证据，不少问题仍然悬而未决。尽管如此，语言学理论经历了过去二十几年的发展，极大地澄清了对语言起源各方面的认识。特别是，我们如今有充足的理由相信，人类语言的关键部分——驱动语言句法的基本引擎——比几十年前大多数人所认为的要简单得多。这对于演化生物学和语言学来说都是一个值得欢迎的结果。生物学家们深知，“表型”（phenotype），字面意义即“表现出的形式”，它的定义越严格，我们对于表型如何演化的生物把握就越牢靠，人类与其他不具有语言的物种之间的区别就越容易找到。随着表型定义的改进，我们便可以着手解决从一开始就使达尔文主义解释一筹莫展的语言演化难题。这在很多文献中被称为“达尔文难题”或“华莱士难题”，后者是以自然选择演化的共同发现者阿尔弗雷德·拉塞尔·华莱士（Alfred Russel Wallace）的名字命名的，它更为恰当。华莱士最早唤起人们注意，采取传统达尔文主义、适应主义的观点来解释人类语言会遭遇很多困难，因为他观察不到任何一项生物功能是不具有语言的物种所不能完成的。 1

语言对演化论的解释确实构成了严峻的挑战。一方面，达尔文式的思想一般要求演化是渐进的，即从某个远祖开始，经过一系列微小的变化。另一方面，由于其他动物都不具有语言，那么，语言看起来是一种生物跳跃（biological leap）现象，这违反了林奈（Linnaeus）和达尔文原则：自然无跃进（ naturae non facit saltum ），即“自然选择只能通过微小的、连续的变异发生，她不能出现跃迁，而只能以最短和最慢的步骤进行”（Darwin 1859, 194）。我们坚信，达尔文的连续论与变化之间的张力能够得到化解。这是本书的一个核心目标。

达尔文的观点是什么？他从未动摇过他所提出的无穷小演化改变与持续性这一强式原则。在《人类的由来》（1871）一书中，达尔文提出了关于语言演化的“卡鲁索”（Caruso）理论：与孔雀的开屏求爱类似，更善吟唱的男性得到了女性的性选择，进而导致发声器官像孔雀的尾巴一样得到完善。发声能力的改进导致了大脑尺寸的同步增加，这又进一步促使了用于表达内部思维的语言的产生：

随着嗓音的使用越来越多，根据使用的遗传效应原则，发声器官不断加强与完善，这将会反过来作用于语言能力。但语言的持续使用与大脑发展之间的关系无疑更加重要。在人类能够使用任何形式的语言之前，人类某一辈远祖的心智必然已经比如今任何猿类更加发达；但我们也相信，语言能力的持续使用以及该能力的发展将会作用于心智，这将促使和鼓励它进行连续的思维活动。若不借助任何图形与代数，冗长的计算则是无法完成的。类似情况也出现在思维活动中。若缺乏词语的帮助，无论其形式是口头的还是无声的，连串的、复杂的思维活动难以顺利进行。（Darwin 1871, 57）

达尔文的卡鲁索理论在近期经历了某种复兴。事实上，本书的作者之一（Berwick）曾于1996年在爱丁堡举办的第一届语言演化大会上，基于韵律结构的现代语言学理论对其进行了更新。如今，拥护达尔文乐源性语言演化理论（musical protolanguage theory）的第一人当属菲奇（Fitch 2010）。正如他所提到的，达尔文的理论极具前瞻性与现代性。我们赞同在上文所引的那段话中达尔文的一个观点，即语言与思维紧密相连，用古生物学家哈里·杰里森（Harry Jerison 1973，55）的话说，语言是“内部心智的工具”。在第三章中我们会为此观点提供语言实证支持。

与某些观点相反的是，关于语言演化的“达尔文问题”其实并非是一个禁忌的话题，好比某个古怪的亲戚被禁锢在顶层阁楼里达三十年之久，直到20世纪九十年代才得以“复活”。相反，在20世纪五六十年代以及整个七十年代，在马萨诸塞州坎布里奇市，语言演化一直是一个人们极感兴趣的话题，这一深厚的兴趣直接反映在艾瑞克·雷纳伯格1966年9月出版的《语言的生物基础》一书的前言中。（Eric Lenneberg 1967，viii），他感谢了“过去15年”帮助过他的一长串为人熟知的名字：罗杰·布朗、杰罗姆·布鲁纳、乔治·米勒、汉斯·托伊伯、菲利普·利伯曼、恩斯特·迈尔、查尔斯·格罗斯，以及诺姆·乔姆斯基。在我们看来，雷纳伯格的书如今仍具有很高的现实意义，非常符合时宜，尤其书的第六章“演化论与遗传学视角下的语言”，即使在当今也仍然是缜密的演化论思维的典范，他早期的著作（Lenneberg 1964）也是如此。从某种意义上来说，我们的文集是对雷纳伯格著作的更新。

根据我们对这段历史的了解，雷纳伯格先后完成了以下的工作：他很有先见地提出跟踪收集儿童导向的言语；发现手语可以自发地创造出来，且是一种完备的人类语言（马萨诸塞州沃特敦的帕金斯聋人学校）；发现即使在严重病理的情况下，语言习得依然能够成功；提供了语言习得关键期的证据；指出语言句法与其他认知官能是分离的；创造了诸如“语言准备就绪的大脑”（language-ready brain）等现代术语；对有语言障碍的家族进行了家系分析，印证了 FOXP2 数据，从而为语言有基因组分的观点提供了证据；他指出“假设‘语言基因’的存在是不必要的”（Lenneberg 1967, 265）。并且，他还对比了语言演化的连续论与非连续论，主张非连续论的立场，并用语言官能显而易见的一致性等关键证据支持了这一立场：“所有种族的语言能力是完全相同的，这说明语言这一现象必定存在于种族多样化之前”（Lenneberg 1967, 266）。

那么，真实的情况是，人们对语言与演化的问题一直保有长久的兴趣。诚然，在20世纪五六十年代，除了雷纳伯格所写的之外，人们对语言演化能说的东西并不多。当时典型的生成语法由许多复杂的、有序的转换规则组成。粗粗浏览乔姆斯基《句法结构》（1957）附录II中有关英语的26条高度详细的规则，便可发现它们所体现的复杂性。尽管如此，语言学家对于语言演化的兴趣并没有减弱，并且时不时地举办一些关于语言演化的重要会议，如1975年在纽约科学院举办的国际会议（Harnad, Steklis & Lancaster 1976）。自20世纪六十年代中期起，人们已经认识到，那些从一种语言到另一种语言之间极端不同的、复杂的规则系统虽然能够满足充分描写每一种具体语言的要求，但却完全不能解释儿童为什么可以轻松地习得任何一种语言。人们逐渐意识到，通过探索对语言习得的生物系统的限制，即对普遍语法的限制，可以化解这个谜团，而普遍语法就是语言官能遗传组分的理论。在1975年纽约科学院举办的语言演化会议上，本书作者之一（Chomsky）曾提到，正如本章开头所讲，似乎有一些限制条件约束了语言“表型”，从而缩小了演化的目标。例如，语言规则经常局限于一些特定的区域，因此我们可以说 Who did Mary believe that Bill wanted her to see （玛丽相信比尔想让她见的人是谁），在该句中 who 作 see 的宾语解释，而当 who 内嵌于一个名词短语内时，则不可做此解释，如 Who did Mary believe the claim that John saw （Chomsky 1976, 50）（另见第四章）。正如那次报告所总结的，“我们有充分的理由推测，这个心智器官，即人类语言，依照遗传所决定的特征而发展，不同语言之间的差异则是由一些微小的调整造成的”（Chomsky 1976, 56）。诸如此类的问题甚至在语言学家们为某种单一的语言构建生成语法时便出现了。

之后的十年中，这类探索的脚步大大加快，一系列大量的UG的系统限制条件不断积累，从而形成了“原则与参数框架”（P&P）。在P&P模型中，《句法结构》中一些详细的转换规则，如英语中将名词短语从宾语位置移到主语位置的“被动规则”，或在英语疑问句中将 who 一类的单词移到句首的规则，合并成为了单一的一项操作，即“移动任何短语”（“移动-α”），它同时还包括一系列排除非法移位的限制，如上段所提到的对于 who 或 what 一类的 wh- 词语的限制通用形式。它们被设置为一系列有限的、能够捕捉语言之间差异的可允准的小变化，称为参数——例如，日语是动词居尾，而英语和法语则是动词居首。正如马克·贝克（Mark Baker 2002）所提到的，语言学理论在外观上看起来与元素周期表有些类似，原子相互结合形成可能的分子。

到了20世纪九十年代，原则与参数模型已经能够解释相当多的跨语言差异，因此，我们可以首次抽身出来，看看能不能同时把规则和限制归结成最小的可能的集合，该集合具有诸如高效或优化计算原则这样的独立动因。对人类语言最简系统的追求导致了极大的简化，即更狭窄的语言表型。

我们如何描述这种更狭窄的表型？过去六十年间，对生成语法的研究揭示了人类语言一些基本的、几乎没有争议的原则。人类语言的句法结构至少包含三种关键特性，它们都符合最简系统的假设：（1）人类语言的句法具有层级性，而不考虑线性顺序，线性顺序限制仅作用于外化；（2）与句子有关的特定的层级结构会影响其释义；（3）相关句法层级结构的纵深不存在上界。值得说明的是，如果这些都是正确的，那么满足（1）意味着任何合格的语言理论都必须能够构建一系列层级结构表达，而忽略其线性顺序；而（2）蕴含着结构（部分地）在“意义”层面确定了其释义。最后，（3）意味着这些表达式潜在上是无限的。正因如此，这些是任何合格的句法理论所必须包含的最简特征，也即它们是最简方案的一部分原因。

为了说明语言的确具有这些特征，我们来看一个简单的例子，之后在第三章、第四章我们还会再次提到它，即 birds that fly instinctively swim 与 instinctively birds that fly swim 这两句话的对比。前者是一个歧义句，副词 instinctively 既可以修饰动词 fly ，也可以修饰 swim ——可以是鸟类本能地飞翔，或是它们本能会游泳。现在我们再看第二个句子，将副词 instinctively 放至句首彻底改变了这句话。在 instinctively birds that fly swim 这句话中， instinctively 只能修饰 swim 而不能修饰 fly 。这看起来难以理解。毕竟就单词数量来看， instinctively 与 fly 离得更近，而与 swim 相隔较远； instinctively 与 fly 之间只隔了两个单词，而与 swim 隔了三个单词。但是，人们并不会把 instinctively 与离它更近的 fly 联系起来，而是会与较远的 swim 相联系。实际上，真正的原因是，在结构距离上， instinctively 与 swim 的距离比与 fly 更近。从 instinctively 算起， swim 内嵌一个层级，而 fly 的嵌入层级更深。（第四章图4.1提供了一张树形图。）显然，在人类语言句法中，线性距离无关紧要，只有结构距离才起作用。

层级特性不仅在人类语言句法中的地位至高无上，它们还没有实际的上界，尽管其加工难度当然可能随着层级高度而增加，例如句子 intuitively people know that instinctively birds that fly swim （直觉上人们知道本能会飞的鸟也会游泳）。如果我们赞成丘奇—图灵（Church-Turing）论题以及人类大脑是有限的这一假设，那么我们便只有一条出路：我们需要递归的某种概念才能够充分地描写这些现象。这是毫无争议的。上述三种特征共同确立了任何合格的人类语言句法理论的最简要求。

然而，当代关于灵长类动物神经科学的讨论有时明确且强烈地否认这三个断言，相反，他们主张语言只需要与线性顺序相关的限制，而且也没有必要提出层级限制或递归概念。该立场对于神经生物语言研究及演化模型都具有深远的影响。但是，它是错误的。

例如，博恩克塞尔—施莱索斯基与同事（Bornkessel-Schlesewsky et al . 2015）在此基础上主张人类与其他灵长类具有连续性：“我们不赞成这个概念……即人类语言需要一个更精密的、独特的计算机制（如由递归产生的离散无限性）。……使A与B两种成分以特定顺序结合成为AB序列的能力，便构成了人类语言加工能力的计算基础。”（2015, 146）

他们还得出了一个或为关键性的演化结论：“有令人信服的证据表明，非人灵长类的计算结构……性质上足以执行必要的计算。”（Bornkessel-Schlesewsky et al . 2015, 143）如果该结论正确，这将对演化理论产生深远的影响。那么，“人类语言基本的计算生物学前提条件，包括句子和语篇加工，则已经出现在非人灵长类动物中”（2015, 148）。

然而，正如我们所看到的，博恩克塞尔—施莱索斯基的主张显然是错误的。线性加工对于人类语言来说是远远不够的。这就说明博恩克塞尔—施莱索斯基等人所发现的灵长类动物的机制原则上不足以解释我们通常在人类语言中所发现的现象。如果这是正确的，那么，基于这点，非人灵长类动物的大脑则难以模仿人类语言的诸多方面。

让我们概述一下最简方案的分析。在最理想的情况下，人类语言句法构建层级结构所需的是一个单一的操作，即合并（Merge）。这种操作能够将任何两个句法成分合并成一个新的、更大的层级结构表达式。

简单来讲，合并操作是一种集合构造。给定一个句法客体X（要么是一个类似单词的原子，要么本身即是合并操作的一个产物）和另一个句法客体Y，合并生成一个新的层级结构客体，即{X,Y}集合；新的句法客体通过满足最简计算条件的算法获得一个标签。例如， read 和 books 合并生成{ read, books }，其结果通过最简搜索获得标签，它定位于组合“中心词”的特征上，在本例中，即动词成分 read 的特征。这与传统的成分结构概念保持了一致， read books 是一个“动词短语”。这个新的句法客体可以做进一步的计算，因此体现了我们之前提到的人类语言的基本特性。

在之后的章节中我们会继续讨论这个理论，但就现在而言，应该清楚的是，像这样仅仅关注表型，则大大减小了演化理论的解释负担——简言之，我们没有太多需要解释的，因此也就削弱了“达尔文悖论”。对人类语言表型近期所做的提炼和狭化便是本文集的第一个动因。

第二个动因是我们对于语言生物基础的认识有了改进。我们现在可以有效地使用“分而治之”的策略把难度较高的语言演化问题切分为三个部分，正如语言的基本特性所描述的那样：（1）一个内在的计算系统，它负责构建层级结构化的表达式，这些表达式在与其他两个内部系统的接口中获得系统性的诠释，它们分别是（2）感知运动系统，它负责外化，如产出和结构解析，（3）概念系统，它负责推理、解释、规划和行动组织——通俗来讲即“思维”。值得一提的是，外化不仅仅包括发声／肌动学习和产出，还至少包含语言的一些其他方面，如构词（形态），它与语言的声音系统的关系（音系和语音），输出调整以减轻记忆负担，以及韵律。

然而，从我们的立场来看，更为重要的是，在语言中，显然任何感官模态都可以在输入或输出中使用——声音、符号，或触觉（幸好，嗅觉看起来不在该列表之中）。需要注意的是，内部层级结构本身并不含有任何从左至右的短语、词汇或其他成分的顺序信息。例如，能够将日语与英语、法语区分开来的动词—宾语或宾语—动词选项甚至并没有体现在其内部层级结构中。相反，语言序列性的次序是由外化要求而强加的。如果其模态是听觉上的，那么这种输出通常被称为言语，它包括发声学习与产出。但是，输出也可以是视觉或肌动的，如手语。

在一定程度上，多亏了对鸣禽的比较研究、神经生理学研究和基因组研究，人们逐渐开始理解，人类与鸣禽的发声学习的生物基础属于演化中的趋同系统：它们相似却又相互独立。发声学习——即学习区别性的、有序的声音的能力，也许是依靠100～200个基因获得的（Pfenning et al . 2014）。鸣禽与发声学习的哺乳动物的发声学习显然都具有区别性的神经生物学证据，这一点可以从发声运动皮质区（vocal cortex motor region）到脑干发声运动神经元的投射看出，如图1.1上半部分所示。这些直接的投射显然不存在于如鸡或猕猴等非发声学习者中，如图1.1下半部分所示。

近期，康茗斯和根特纳（Comins & Gentner，2015）、恩格雷赛（Engresser et al . 2015）等人的发现表明，这种学习能力不止是简单的排序。康茗斯和根特纳的报告指出，椋鸟所展现出的抽象范畴的构造与人类声音系统相类似，恩格雷赛与同事宣称发现了一种鸟类——栗冠弯嘴鹛（ Pomatostomus ruficeps ）——具有“音位对比”能力。科恩（Coen, 2006）对这一物种特异性的可能性有过预见。最近，高桥等（Takahashi et al . 2015）报告说，狨猴幼崽通过一种类似人类婴儿调音（tuning）的方式使发声更精准，这可能正是科恩所预测的方式。贝里克（Berwick 2011）等人已经证明了鸟歌中有限的线性顺序是能够从数量上可计算的正向例子中获得的。如果这一切都是正确的，它使我们能够将语言系统外化的方面置之一旁，而专注于其他核心的、人类独有的方面。

最后，举一点神经学证据来佐证我们“分而治之”的方法。大卫·珀佩尔（David Poeppel）研究组近期发表的动态皮质活动脑磁图（MEG）的实验结果也表明，语言层级结构诱导的脑活动与单词流的线性诱导是不相联的（Ding et al . 2016, 印刷中）。关于语言与大脑我们会在第四章进一步叙述。

至于第三个动因，至少在我们看来，雷纳伯格对生物及语言演化本质的重要见解有被遗忘的危险。例如，他曾对达尔文的演化“连续论”和他本人的“非连续论”两种观点的利弊做过细致的讨论。由于演化思维的近期进展已经阐明了这些立场，因此，雷纳伯格的观点在当时显得尤为深刻。与任何丰富的科学领域一样，现代演化生物学已经超越了达尔文原本的观点，即把演化视为源自个体选择的适应性变化。

达尔文的确犯了一些错误，或许最为人熟知的错误被所谓的现代综合论（Modern Synthesis）纠正了。现代综合论是20世纪中叶出现的自然选择演化论与孟德尔主义（Mendelism）和颗粒遗传（基因）[particulate inheritance (genes)]的结合，它弥补了达尔文缺乏恰当的遗传模型的缺陷，并且最终促使演化分析进入了现代基因组学时代。达尔文采用了他所处时代的（错误的）遗传理论，即“融合遗传”（blending inheritance）。基于融合遗传理论，假如使红色花朵与白色花朵交配繁殖，那么它们下一代的花朵颜色将会全部介于红色与白色之间，即粉色。融合很快便会抹去变异，从而使自然选择难以继续——回想一下童年时，你拿着湿漉漉的画笔在水彩调色板上来回涂抹的经历。起初，色谱上颜色各异，从紫色到黄色，最终会全部变成土褐色。然而，如果下一代全部都具有土褐色性状，那么，自然选择便没有什么可以选择的了。无人处于平均值以上，也无人处在平均值以下；对于自然选择这个筛选器来说，一切都是一样的。没有变异，则没有自然选择。那么，达尔文所提倡的机制将会在一到两代内停止运转。我们需要的是想办法保留代代相传中的变异现象，尽管红色与白色的花交配繁殖有时会得到粉色。

孟德尔找到了答案：遗传是通过离散颗粒，即基因来完成的，尽管那时他对此当然无从知晓。迟至20世纪前半段，现代综合论的创始人斯莱·赖特、罗纳德·费舍尔和哈丹揭示了如何将孟德尔颗粒遗传与达尔文自然选择演化论系统地结合起来，构建了数学模型，明晰地展现达尔文机制在代代相传中是如何运行的，从而使种群性状的频率得到了改变。

另外，达尔文还（通常是默认地）假定生物种群是无限的，即使在实际上无限的种群中，自然选择的演化也是一个完全确定性的过程，而这又是一个严重的错误。演化引擎上的每一个齿轮——适应度、迁徙、繁衍能力、交配、发育以及其他因素——均受坎坷不平、反复无常的生物命运所支配。适者生存归根结底往往是幸者生存，这会影响到演化是否像达尔文所预见的那样平稳且连续。要认清这一点需要更加精密的数学计算，但据我们所能查到的资料来看，近期有关语言演化的书没有一本完全理解这一点。达尔文本人在他的自传中也曾写道：“我在连续的、纯抽象的思维方面的能力是非常有限的；因此我在玄学与数学上难有造诣。”（Darwin 1887, 140）

我们将在本章的剩余部分以倒序的方式阐述后两个动因，先介绍演化理论，然后连同演化与基因组学一起来讨论分而治之的方法。关于最简方案以及强式最简命题（Strong Minimalist Thesis）的细节，我们将留到第二章和第三章中叙述。

演化理论的演化

让我们以下面这个问题开始：当代的演化理论和语言演化的理论有什么新颖之处？我们可以从约1930年的历史背景展开。如前所述，那时正值现代综合论的鼎盛时期。如今大部分语言演化论者看来都领会了当年达尔文主义在遗传方面所遭遇的麻烦，也了解了现代综合论所提出的解决方法，一些作者甚至还提到了有限的种群规模对于演化性改变的简单效应——例如，在小规模种群中出现的抽样效应（sampling effect），又称“遗传漂变”（genetic drift），可能会导致优良的性状因运气不好而丧失（在该种群中它们的频率变为0），也可能导致非优良的性状因运气好而完全固定（它们的频率变为1）。理解其中的原因并不难。我们可以像斯莱·赖特和罗纳德·费舍尔那样来说明：将生物种群看作是一个罐子里不同颜色石子的有限集合，每块石子代表一个个体或基因变体——假设白色占80%，红色占20%。种群数量是固定的——不存在会改变石子颜色频率的选择、突变、迁徙，或其他任何形式的变化。现在，我们模拟一个种群规模为5的一代。我们随机从罐子里选取一块石子，记下它的颜色，放回罐子，再继续抽取，直到我们选取了5块石子为止。这5块被选取的石子便构成了新的“后代”类型，作为第一代。接下来，我们重复这个过程，并留意第二轮的抽取所反映的可能出现的频率变化。例如，我们得到的石子颜色有可能为4白1红——这与我们起初的红、白频率相符。但我们也有可能得到（比如说3块白色石子和2块红色石子）60%的白色和40%的红色，这种情况下，我们在第二代中选取红色石子的几率为2/5。游戏将一直持续。

很明显，我们有一定的几率根本不会抽到红色的石子，那么红色便会灭绝——一旦罐子里不再有红色石子，那么它们也就没有可能魔术般地再次出现（除非我们假设有一些方式能使白色石子“突变”成红色）。起初，当我们每次从罐子中抽取石子时，选到红色的概率平均为1/5 = 20%，与该种群中其他“个体”概率一样。因此，红色石子在任何一次抽取中不被选中的概率平均为1减去这个概率，即1—1/5 = 4/5。两次抽取后红色石子不被选中的概率即为两次都未选中红色石子的概率，4/5 × 4/5，即16/25。以此类推。平均来说，第一代五次都没有选取到红色石子的概率为（4/5），约0.328。因此，红色石子有近1/3的可能性将会消失，它的频率将会从20%降为0。同样，如果我们连续五次选中了红色石子，那么白色石子的频率将会由80%降为0——在第一代中这种情况发生的概率平均为（1/5） = 0.032%，远远小于彻底失去红色石子的概率。正是这样，白色与红色石子的结合使得后代颜色的频率在0与1之间漂变，并没有一个固定的趋势——所以称为“遗传漂变”。

事实上，不难说明在这种简单的背景下，任何特定的颜色都会因为遗传漂变而最终走向灭绝或固定。为了形象地描述这一点，可以用另一种图设——“醉汉行走”——来设想“遗传漂变”。一位醉汉踉跄地离开了他钟爱的酒吧，时钟每嘀嗒一次他便向前或向后迈出随机的步伐。这即是一维的随机行走。一段时间之后，醉汉会走向哪里？直觉上，因为醉汉是从酒吧迈出的第一步，那么似乎他应该会走回起点。然而随机行走总会在起点附近徘徊的直觉是错误的。事实上，随机行走总是会到达某一处——离开起点的预期距离随着时间（也就是步数）的平方根而增长（Rice 2004, 76）。如果我们将步数改为性状或基因，频率在0—1之间，那么醉汉平均有50%的可能性到达1——在这种情况下，该性状或基因在该种群中便会固定并保留——醉汉平均也有50%的可能性到达0——在这种情况下，该性状或基因便会灭绝且维持在0。现代综合论的引领者们使用统计模型从数理上至少部分地展现并预测了这些效应。

然而，据我们所能查明的情况，尽管当代研究者普遍拥护现代综合论，但近期关于人类语言演化的论著似乎没有一个完全理解从传统的达尔文主义到完全随机的现代理论版本的转变——具体来讲，随机效应的存在不仅是不定向的漂变这样的抽样造成的，而且它也存在于适应度、迁徙及遗传中的定向随机变异——事实上，它存在于影响个体或基因频率的所有 “力量”中。适应度并不是有些人认为的万能的“通用算法酸”，偶然与机遇起着相当大的作用。演化的可能性空间如此之大，以至于即使拥有数亿万年的时间和数以亿计的生物体，许多甚至大部分“解决办法”都不能用于基于自然选择的演化。上述思想在查特吉（Chatterjee, 2014）等人近期的一项形式化研究中得到了确认，他们证实了适应所需的时间通常与其基因序列的长度呈指数函数关系——也就是说，即使假设以地质时间为刻度，这个时间仍然是不够的。（那种认为因为许多有机体在起作用，所以“并行处理能力”来源于自然选择的演化这一观点其实是一种空想。）

让我们以一个真实的例子来说明随机效应。斯蒂芬森与同事（Steffanson et al . 2005）曾发现一个特殊的大范围的人类17号染色体遭到破坏。相比于不携带这种变异的女性，携带这种染色体变异的冰岛女性多出10%（0.0907）的后代。我们把这两组分别命名为C+（携带变异者）和C（不携带变异者）。根据通常的达尔文学派的术语，我们称C+组的女性比C组女性的“适应度”高10%，或者C+组的女性有高出0.10的选择优势。也就是说，C组女性每生育一个孩子，C+组女性便育有1.1个孩子。（我们在“适应度”加上双引号是有充分理由的。）

根据我们对人类繁衍的了解，现在很容易理解的一点是，相较于C组女性生1个孩子的情况，C+组的女性实际上不可能恰好生1.1个孩子。那过于理性了。实际上，研究者列表中的所有女性（共16,959位）分别生育了0、1、2、3、4、5或更多的孩子（其中2,657位女性生育了5个或更多）。因此，C+组女性平均比C组女性多生育10%的孩子——但有部分“ 更具适应度 ”的C+组女性并没有生育后代（事实上，这个数量并不小，共764位）。这是问题的核心：任何一个特定的个体（或基因）都可能比整个种群的适应度高10%，但仍然没有留下后代（或基因拷贝）。实际上，在本例中，764位“更具适应度”的女性，适应度其实是零。因此，适应度是且必然是一个随机变量——它有一个平均值，但也存在一些变异，也就是说，它是一种概率分布。因此适应度本身就是随机的——类似于“遗传漂变”（以及迁徙、突变和其他类似方式）。但与遗传漂变不同的是，适应度与选择优势具有定向性——它不像醉汉一样踉跄踱步。

这些因素都能够影响到演化的结果——这些结果在我们所知的有关语言演化的近期书目中都未涉及，但却可能在任何新的基因或个体创新中迅速出现，而谈及语言涌现时，起作用的可能就是这样的情景。那时，群组或繁殖种群可能是小规模的。当然，模型未必详细到能够充分反映这种程度的细节。

此外，也许有人会回应说，适应度与达尔文演化论只关乎种群的平均值而非个体——在演化中，发挥作用和发生改变的是高适应度和低适应度的频率，而不是具体的某位女性发生的情况。这样说在某种程度上是正确的，但当个体或基因拷贝的数量很小时便不适用了，而这恰恰正是任何真正的新性状出现时的关键情况。

为何如此？如果我们选取常用的概率分布为该情况建模，那么，一个具有10%的适应优势的单一个体（或基因）在一代之内灭亡的概率高得惊人，超过1/3，约为0.33287。 ^[1] 况且，这还是在它具有巨大的适应优势的情况下，大概比该领域的一般测量值高出1到2个数量级。此外，如果一个单一的个体或基因完全不具有选择优势——它是中性的，因此它的适应度为1——那么，人们也许会预计，与它适应度更高的亲属相比，它在一代内灭亡的概率会大大增加。然而，这种概率的增长幅度微乎其微：完全消失的概率从0.33增至0.367，只增长了2%～3%。这不仅与人们起初所想的不同，而且与所有语言演化的书籍所描述的都大相径庭——这与遗传漂变并不相似，并不是种群越小，丢失或获得某性状的概率就越大。当基因或个体拷贝的数量很小时，种群规模对于一代内灭绝或存活的概率不起任何作用。

为何这个结果如此重要？每当一个新的基因变种或一个携带新变种的个体出现时，它通常是单独存在于这个世界的，或者至多有4到5个拷贝（假设一个新的性状通过基因突变出现在某一个体的所有后代中）。种群规模是无法控制这一创新的初始轨迹的——这再次与当代语言演化文献中的普遍观点相悖。正如吉莱斯皮（Gillespie 2004, 92）所说，“我们判断，某个单一基因所产生的后代数量与［种群规模］无关。……当该［基因］变得更加普遍，我们的关注点从拷贝数量变成其［频率］时，此时再谈它的随机动态是由遗传漂变来决定的才更正确”［强调号为作者所加］。简言之，当新的基因变种首次出现时，带有该性状的个体需要先爬出不受自然选择掌控的“随机引力井”（stochastic gravity well）。

一旦该个体（或基因拷贝）的数量达到了一个基于适应度的特定临界点，那么自然选择便接管了掌控，适应度高出10%的个体便乘坐着为人熟知的“达尔文号”过山车冲向了顶峰，获得最终的成功，在种群中的频率固定为1。（为什么更具适应度的冰岛C+组女性并没有占据整个国家，或至少整个冰岛沿岸？）

那么，临界值是多少？如果一个新的性状或基因变体具有10%的选择优势，为了能够99%地确定这个“新来者”不会灭绝——也就是说，它的频率需要固定在1而不是0。结果大约是需要461个个体。重要的一点是，这个临界值也与种群规模无关。吉莱斯皮（Gillespie 2004, 95）清楚地阐述了这个问题：“在起初的几代中，唯一重要的是后代的随机数量。……在建模计算这些个体的命运时，种群规模是没有位置的。”

简言之，要想成为一位完全现代的演化理论家，我们应该从“基因视角”转向“赌徒”视角。（有兴趣深入探索该话题的读者可以查阅Rice 2004第八章及第九章，或Rice, Papadapoulos & Harting 2011。）最低限度是什么呢？那就是需要将现实世界生物学和随机行为注入到演化全景中。这包括随机迁徙率（埃利斯岛的过去与现在）；随机遗传模式（你长得毕竟不像你的祖父母）；基因之间的交互（没有单一的“语言基因”）；以及频率增长时适应度的波动。（每个人都带来人口过剩？）如果我们做到这些，那么，适应性演化总是到达适应度顶峰这一过于简单的观点便分崩离析了。想同时满足一千零一个交互基因的作用已非常困难，更别提调适它们共同达到最优适应度了。

有人曾声称，在演化情景中应用博弈论可以解决自然选择所遭遇的难题——我们称之为“演化稳定策略”（Maynard-Smith 1982），这也决定性地“解决”了与多维适应度最大化（multidimensional fitness maximization）相关的问题（Fitch 2010, 54）。这种说法并不正确。这样的解决方法并不存在，至少尚不存在。博弈论在现代演化思想中确实占有重要地位，因为它旨在考虑某个个体根据其他个体的动作或策略应该怎么做。因此，博弈论在频率依赖性（frequency-dependent）选择中尤为重要，在频率依赖性选择中，适应度随着其他使用同一种策略（例如，决定早生而不是晚生后代）的个体数量而改变。若使用其他方法分析这种多维度的频率依赖场景一般是极其困难的。事实上，在我们看来，频率依赖效应也许正是我们所预想的人类语言演化的情况，它包含有／无语言的个体之间的动态交互作用。我们需要诺瓦克的关于语言的演化动态模型（Nowak 2006）。

我们在此没有采用频率依赖论或博弈论的论证方式，这是因为我们不确定它所需的其他假设能否得到满足。博弈论的演化分析尽管在语言演化会议上常被提及，但却并非像人们所说的那样无所不能。博弈论分析最适用于种群规模非常庞大且处于平衡状态的情况，没有突变，且不存在有性重组——也就是说，当我们无须考虑随机效应，或当我们想要了解种群起初是如何过渡到平衡状态的时候最适用，而这恰恰与那时人类的有效人口规模很小，且不处于平衡状态这一普遍接受的假设相反。最后，博弈论方式往往脱离了我们从种群遗传学和分子演化研究中得到的洞见——这恰巧是我们在现代基因组时代对于演化论的认识以及大量已经和将要收集的新数据中的一部分。当然，马丁·诺瓦克（Martin Nowak）及其他研究者将传统的现代综合论种群基因模型与博弈论分析相结合，近期已取得了重大进展（Humplik et al . 2014; McNamara 2013）。博弈论是现代演化理论学者工具包中的基本组成部分，但它也有局限，且这些局限在分子演化学的背景中还没有得到彻底解决。（Rice 2004，第九章；Rice, Papadapoulos & Harting 2011提供了更多讨论。）简言之，《传道书》（Ecclesiastes） 9:11自始至终都是正确的：“捷足者未必先登，力战者未必得胜，智者未必有食，明哲者未必得财，巧手者未必得益；所临到众生的，是在乎当时的机会。”

如果该结论是正确的，也就表明我们需要将随机效应纳入到语言演化的考虑之中。事实上，正如格林（Gehring, 2011）所主张的（甚至达尔文也曾不太情愿地承认过），每当人们遇到像眼睛这样真正的新性状出现时，似乎都暗含偶然性的存在。我们下面很快会再回到对眼睛的讨论。总体来说，我们应该理解演化理论家艾伦·奥尔（H. Allen Orr）所提出的主张，“适应并非自然选择”（Orr 2005a, 119），因此每当我们碰到这两个不同概念被漫不经心地放在一起时，需要心存谨慎。

从确定性的达尔文主义到随机性版本的转变，原因是自1859年达尔文的《物种起源》出版后，研究者们对于演化以及随机过程的发展有了更为精巧的数理和生物理解。这种进步在任何蓬勃发展的科学领域都是意料之中的——演化理论自身的演化——但是，似乎不少作者仍然没有摆脱达尔文最初的观点，依然将演化视为个体的纯粹的适应性选择。即使无须全盘否定达尔文主义，无须引入病毒传播，大规模的水平基因流动，或奇迹般地大突变（macromutation），甚至无须合并吸收演化发育生物学（evo-devo）中的合理观点，我们现在已知达尔文和现代综合论的观点在理论和实证两个方面都不够精确，现有的研究已经充分证明了这一点（Kimura 1983; Orr 1988，2005a; Grant & Grant 2014; Thompson 2013）。

那么生物是怎样演化的？用斯蒂芬·J.古尔德（Stephen J. Gould）与他的批评者之间的著名交锋中所使用的方式来说，演化是匍匐式的，还是跳跃式的？（Turner 1984; Gould & Bose 2007）当然两者都是。有时，正如达尔文的经典观点所说的那样，适应性演化的确非常缓慢，需要历经几百万年。但有些演化的速度相当地快，甚至惊人地快，这之中甚至包括大范围的行为变化，比如燕尾蝶的食物偏好（Thompson 2013, 65）。汤普森（Thompson 2013）在他近期的权威调查中提到，这种演化速度在来自所有主要的系统发生群组里数以百计的不同物种中得到了证实。

在此我们同意，不能像有些人那样草率地认可达尔文主义的无限小渐进过程有时速度可以加快而混淆视听。但关键的问题是，当出现演化创新时，何为“速度”？我们的观点既能包含长期的可能性——上百万年时间和数十万代，例如先于鸟类和我们而出现的发声学习工具的演化——也包含了短期的可能性——几千年时间和几百或几千代，如一些相对近期的适应性行为，例如西藏人在高海拔、含氧量低的地方存活的能力；在奶牛养殖业中成长的孩子成年后具有消化乳糖的能力（Bersaglieri et al . 2014）；或者我们的核心信念——构建层级性句法结构的这一创新能力。

有些性状之所以能够跳过漫长的基因变化过程，是听从了生物学家林恩·马古利斯（Lynn Margulis）的建议：获得全部的、新的基因的最快方式是吃掉它们。西藏人显然是通过与我们的近亲丹尼索瓦人的联姻而获得了一段调控DNA，它正是我们的身体对于缺氧状态反应的一部分，因此，西藏人通过基因渗入作用（introgression）吞噬了该基因（Huerta-Sáchez et al . 2014）。人类显然从尼安德特人和丹尼索瓦人中获得了一些重要的适应性性状，如皮肤色素的改变、免疫系统的调整，等等，所以在欧洲存活了下来（Vernot & Akey 2014）。当然，这些基因被吃掉后需要证明它们的选择能力——但这类基因吞噬可以把人从我们之前提到过的引力井中拉出来。

此类通过达尔文式入口的“偷渡”非常重要，对此若有任何疑问，请记住是马古利斯倡导了这个一度受到谴责但如今又被证实了的理论。该理论认为，有机体正是通过这种免费午餐，以吞噬作用的方式吃掉另一个单一细胞，从而获得了现在为我们的细胞供能的、其名字叫作线粒体的细胞器（Margulis 1970）。这或许是马奈《草坪上的午餐》最古老的版本，它发起了演化生物学家约翰·梅纳德·史密斯与埃尔斯·绍特马里（John Maynard Smith & Eörs Szathmáry, 1995）所提出的“演化中的八大重大转变”中的一个。梅纳德和绍特马里强调了一个重要观点，即在这八种覆盖了从DNA的起源到性别、再到语言起源的转变中，有六种（其中包括语言）看似都属于只限于单一血统独有的演化事件，有些是以我们在上文所讨论的方式而快速转变的。这里没有任何东西违背了最传统的达尔文主义观点。

因此，确实可能存在突发的基因组／表型转变，正如生物学家尼克·连恩（Nick Lane 2015, 3112）所说，这不过是“转移了选择所作用的起点”。在此，连恩指的是非凡的且显然是一次性的突然转变，从原核生物这样简单的细胞生命——具有环状DNA，没有细胞核，没有性，并且本质上不会死亡——到吞噬法所形成的复杂生物，包括我们在内的真核生物——具有线性DNA、线粒体、细胞核、复杂的细胞器，且最终具有性、爱、死亡和语言。对此，连恩说道：“千万不能把基因跃变（genetic saltation）与适应相混淆”（2015, 3113）。从地质时间的角度来看，这些变化是迅速的。

以上所说的，都凸显了概率、偶然和生物化学—物理环境在创新性演化改变中的作用——自然选择的演化是盲目的，不以更高的智力或语言作为“目标”。有些事件只发生一次，且似乎不易重复发生——比如具有细胞核与线粒体的细胞的来源、性等。其他一些演化生物学家也认同这一观点。恩斯特·玛丽（Ernst Mary）在与卡尔·萨根（Carl Sagan）的一次著名辩论中就提到过我们的智力本身——以及还暗示了语言——或许也属于这一范畴：

高智力极难起源，最好的证明是数百万个物种都没有获得高智力。自生命出现以来已有的物种有数十亿种，也许约有五百亿种之多。它们中只有一个获得了建立文明所需的智力。……对这种稀缺性我只能想到两个可能的原因。第一，与我们的期待相反，高智力根本不受自然选择的青睐。事实上，其他所有的生物，数以百万的物种，没有高智力也生存得很好。高智力稀缺性的另一个可能的原因是它极其难以获得……这并不意外，因为大脑有极高的能量需求……一个允许高智商的大脑是在人科谱系最近不足6%的时间里发展起来的。看来，产生高智力需要一系列罕见且有利的条件与之相结合。（Mayr 1995）

当然，根据查特吉等（Chatterjee et al . 2015）的研究结果，我们现在对于某个性状“极其难以获得”的含义有了更确切的理解：它可能在计算上难以处理，以至难以通过自然选择而获得。

我们再来看另一个快速演化性改变的例子。这个例子很新，而且研究得十分透彻，因此可能看起来更加具体、可信。对自然选择最详尽、持续时间最长的野外实验观察之一是格兰特夫妇（P. R. Grant & B. R. Grant）持续四十年的一项研究，他们在加拉帕戈斯群岛中的大达夫尼岛上追踪了两种达尔文雀的演化，它们分别是中地雀（ Geospiza fortis ）和仙人掌地雀（ G. scandens ）（Grant & Grant 2014）。这是最为脚踏实地的演化分析。格兰特夫妇发现了什么？演化性变化有时与适应度差异有关，但同样地，有时却又无关。因此，适应度差异并不能预知演化结果。选择有时是间断性的，有时是渐进性的。异常事件的出现，如大达夫尼岛上出现的一种名为大鸟（Big Bird）的新雀类物种，导致它与其他既有雀类物种的杂交，并且加速了由外部环境事件而引起的演化性改变。这些野外观察为人们对语言演化的预期提供了证明。如上文中我们提到过的，丹尼索瓦人和尼安德特人的组间杂交在人类的适应性演化中发挥了作用。尽管我们并不意在推测语言也是以这种方式出现的——事实上，如果我们接受来自基因吞噬的证据，这种方式目前反而是能够被明确排除的——然而，我们确实希望能够给读者留下一个印象：演化既适用于快跑者（如兔子），也适用于慢爬者（如乌龟）。

那么，为什么达尔文流派普遍毫无异议地假设自然选择演化是渐进与缓慢的呢？达尔文在随比格尔号军舰（ Beagle ）航行探索期间，吸收了莱尔极具影响力的三卷《地质学原理》（ Principles of Geology , Lyell, 1830—1833）中的思想以及其中所强调的“均变论”（uniformitarianism）——力量的古今一致性。山脉经过亿万年才慢慢被侵蚀成沙子。达尔文完全吸收了《地质学原理》中的思想，许多语言起源理论家也是如此。他们吸取了达尔文与莱尔的思想，并采纳了强连续论假说：与眼睛和其他任何性状一样，语言一定也是经过“不计其数的、连续的、微小的变化”演化而来的（Darwin 1959, 189）。但严格来讲，的确是这样吗？比如说“连续的”，有一种解读是，所有“连续的”方式即表示演化事件在时间上必须一件接着一件发生。这永远是正确的，因此我们可以把这一限制置之一旁。

这样我们只需讨论“不计其数的”和“微小的”。在《物种起源》刚刚出版后，“达尔文的斗牛犬”赫胥黎便在1859年11月23日给达尔文的信中公开批判了这两个概念：“如此毫无保留地采纳‘自然无跃进’原则，你让自己背上了一个不必要的困难。”（Huxley 1859）在《物种起源》中，达尔文本人也拿不出一个完整的眼睛渐变演化的理论，他知道只有在感光细胞和色素细胞演化形成一个具有部分感光功能的原型眼后，自然选择才能开始发挥作用。他对感光细胞—色素细胞配对的真正起源没有任何解释，我们也不该指望达尔文能有这样的解释。

现代分子生物学在此为我们提供了新的见解。达尔文提出的原型眼包含两个部分：一个光敏感细胞（一个“神经”）和一个投影感光细胞的色素细胞：“在体节动物中，有一个以单纯被色素层包围着的视神经为起点的系列。”（Darwin 1859, 187）但是，达尔文没有找到一种方法来论证这个起点之前的情况。最后，达尔文采取了与解释生命起源同样的选择——降级为随机效应，因此超越了他的理论解释范围：“神经怎样对光变得敏感，正如生命本身是怎样起源的一样，不是我们研究的范围；但我可以指出，一些事实使我怀疑任何敏感的神经都有成为光敏感神经的可能。”（Darwin 1859, 187）

仔细考虑可以知道，同样的达尔文难题其实出现在每一个新事物产生的时候。对于眼睛起源，格林（Gehring 2011）提出过一个更为精巧的分析。他跟莫诺（Monod 1970）一样，认为眼睛是概率与必然的共同产物。原型眼需要两个组分：感光细胞和色素细胞。感光细胞的最初形成是一种概率事件；它不是通过自然选择，经历了费力的、尝试性的、渐进式的搜索而获得的：细胞捕捉了光敏感的色素分子，再由 Pac-6 基因进行调控。观察者从外部所能看到的是在很长一段地质时间内生命不具有感光细胞色素，之后，细胞+色素的组合相对迅速地出现——色素要么被捕捉，要么没有。这一切的发生都无须满足“不计其数的”或“微小的变化”。可以确定的是，分子必须通过选择的筛选，并在此后经过微调——但是是在关键事件之后。类似情况下，原型的色素细胞起源于单细胞中无处不在的黑色素以及被捕捉的感光色素。在某个时间点，这个单细胞在细胞分化调控基因的控制下一分为二，这又是一个随机性事件。同样，如果“从外部”来观察，人们会看到一个相对长的静态阶段，随后分裂为两个细胞，只可能出现两种情况——要么产生了后代，要么没有。“基于这些考察，我们得出结论，达尔文眼原型是通过细胞分化产生的， Pax-6 控制感光细胞， Mitf 控制色素细胞。”（Gehring 2011, 1058）

简言之，达尔文的两细胞原型眼的最初起源看起来并没有遵循经典的尝试性选择模式。相反，是两个不同的、随机且突发的事件导致了眼睛的“照相机胶卷”这个关键创新。那么之后呢？尽管眼睛的照相机机身、镜头等以达尔文所描写的方式有了很多改进和显著创新，但胶卷得到的修补却少之又少。演化并不像是抛弃了柯达，转向了拍立得，最终又走向数位存储。最初的两个关键创新既非“不计其数”也不“微小”。在时间线上，它们就像两个酸痛的拇指那样伸了出去，两个突发的、巨大而迅速的变化，期间几乎没有发生其他任何事情——就像我们人类谱系一样，是一个静态与创新交互的模式，之后我们会再做讨论。

然而，“达尔文原教旨主义者”也许仍坚持认为，所有这些步骤都存在一个祖先链，每一步都具有平缓、渐进的持续性，因此，当代其他物种极有可能共享一部分构成人类语言的性状。在这个框架下，最近有关黑猩猩能够做饭的发现（Warneken & Rosati 2015）甚至也助长了我们的近亲在语言方面也与我们接近的看法。然而，从本章稍早所提到的博恩克塞尔—施莱索斯基等人与弗兰克等的观点中我们可以看到，黑猩猩事实上与我们在语言方面毫不类似，这点我们在第四章中会再次提到。

有人也许会把这种原教旨主义的、均变论的图景称为“微小突变观”。在这一传统的场景中有一种不同的，经常是与之极端对立的观点——常被漫画性地描述为稻草人——即由戈尔德施密特提出的所谓的（而且声名狼藉的）“希望怪兽”（hopeful monster）假说。戈尔德施密特（Goldschmidt 1940）认为，巨大的基因和形态变化，甚至是新物种的出现也仅仅需要一代。由于希望怪兽假说看起来不可能是正确的，因此许多人排除了除微小突变以外其他任何形式的变化的可能性。

然而，这是一个错误的二分法。我们已经看到，有足够的理由相信它在经验上是错误的。很多演化创新都难以符合这种微小突变与希望怪兽之间一刀切的对立——如细胞核、线性DNA，以及语言（见Lane 2015，我们也持这一观点）。从理论的视角，大约在1930年左右，当现代综合论接近鼎盛时期，微小突变选择就已不再盛行。1930年，现代综合论的三位领导者之一费舍尔出版了他的《自然选择基因论》（ Genetical Theory of Natural Selection ），他采用一个简单的数学几何适应模型，同显微镜的对焦做了类比（Fisher 1930, 40—41）。直觉是，如果一个人不断逼近观察一个针尖一样微小的景象，那么只有极其细微的变化能够使我们对焦得更为准确。而对焦轮如果变化很大，则极有可能使我们远离想要观察的区域。这篇文章在直觉上合理且可信，足以说服之后几代的演化生物学者——直到最近。

基于该模型的结果，费舍尔声称所有的适应性演化改变都是微小突变——由无限小的，表型效应近乎为0的变化组成。对此，奥尔（Orr）认为，“这个事实基本上确保了自然选择是演化中创新的唯一来源 ……因为选择通过一系列连续的、近乎平滑的变化制约了适应，所以突变本身提供的表型形式微乎其微”（强调号为作者所加）。

费舍尔的模型特别指出，极其微小的表型效应的突变有50%的几率得以存活，而任何更大的突变的存活概率都呈指数下降。如果我们采用费舍尔的模型，那么从定义上讲，具有大表型效应的基因不能在适应中发挥作用。如奥尔所提到的：

对于费舍尔模型的历史重要性怎么评价都不过分。他的分析单枪匹马地说服了大多演化学者大的表型效应因素在适应中要么不起作用，要么作用微乎其微（参见Turner 1985; Orr & Coyne 1992）。对文献的回顾也反映出实际上几乎每一位现代综合论的主要学者都会引用费舍尔的模型作为微小突变论的唯一支持（同时参看Dobzhansky 1937；Huxley 1963；Mayr 1963；Muller 1940；Wright 1948）。霍尔丹（J. B. S. Haldane）看起来是唯一的例外。

实际上，翻阅有关语言演化的著作，似乎每一本都拥护费舍尔的立场——与此同时，自然选择相应地占据了完全主导的地位。菲奇（Fitch 2010, 47）的评论极具代表性，追随“显微镜对焦”的比喻：“反对适应性在重大质变中所起作用的核心论据是，我们在自然界所观察到的大突变是破坏了而不是加强了适应性功能。有机体是一个精准微调的系统，生来具有较大的随机变化的个体只有很小的概率能够适应并存活下来。”

拖勒曼（Tallerman 2014, 195）曾表明，她本人与她所引用的两位作者（McMahon & McMahon 2012）都采用了费舍尔的渐变论：“麦克马洪和麦克马洪（一位语言学者与一位遗传学者）提到，‘生物演化通常是缓慢的、累积性的，而不是激进的、突发的’在针对‘引发直接和强烈变化的大突变’时，他们说道，‘后者在演化中极不可能。’”

然而，费舍尔是错误的。19世纪八十年代关于适应遗传学的实验成果显示，个体基因在表型中的效应可能大得惊人。有必要再次全文征引奥尔的观点：

19世纪八十年代……各种方法不断发展，终于能够在适应性遗传学方面进行严密数据的收集——即运用数量性状位点分析（Quantitative trait locus analysis）。……在数量性状位点分析中，种群或物种之间表型差异的基因基础可以通过一套分子标记来分析。在微生物演化研究中，微生物被引入一个全新的环境中，准许其对环境进行适应；在此期间，基因和分子工具能够识别适应过程中部分或全部的基因变化。两种方法的实验结果都出人意料：演化通常涉及效应相对较大的基因变化，且至少在某些情况下变化的总数看起来较为适中……［实验结果］还涵盖了几个经典研究，如分析棘鱼的盔甲或盆骨结构的退化，果蝇幼虫茸毛的脱落，以及玉米和沟酸浆属植物新形态的产生。微生物的相关研究进一步反映了适应中发生在早期的基因变化比发生在晚期的更具适应度，且平行适应性演化惊人地普遍。（Orr 2005a，120）

实际上，在奥尔之前，木村（Kimura 1983）已经发现了费舍尔模型中的一个重大缺陷，该缺陷来源于我们上文讨论过的真实生物演化中的随机属性：费舍尔并未准确地将有益突变中可能会出现的随机损失考虑进去。木村指出，具有较大的表型效应的变化不容易丧失。在木村的模型中，中型的突变应该更易达到适应。然而，为了捕捉任何“适应性路程”（adaptive walk）中的一系列步骤，而不只是其中单一的步骤，该模型也需要一些修改（Orr 1998）。如奥尔（Orr 2005a, 122）所说，“费舍尔模型中的适应性因此包含了少数表型效应相对较大的突变以及多数相对小的效应……因此，适应的特点可以归结为递减效应——较大效应的突变通常较早被替代，随之是效应较小的”。人们可以将演化性改变想象成一个弹跳的球，最大程度的弹跳出现在首次，随后是连续的越来越小的弹跳——一个递减序列。这一发现对那些坚持语言演化的第一步是微小突变的观点有着明确的启示。简言之，相对大突变极为罕见这种说法，相反的观点才应该是成立的，且有时确实是成立的。当代的演化理论、实验结果以及田野调查都支持了这一立场——而这并不需要认同戈尔德施密特式的“希望怪兽”假说。事实上，这之间存在一个安全的中间立场。毫无疑问，在任何一个具体的场景中实际发生了什么仍然是一个实证问题；按通常的情况，生物学更像判例法，而不是牛顿物理学。下面我们将要讨论的以及之后在第四章将会提到的线索指明了相对迅速的变化的一个大致方向，它应该发生在大约20万年前解剖学上的现代人类首次出现在非洲，到大约6万年前他们从非洲大迁徙之间的某个时间段。

我们从现代对达尔文主义以及演化性改变的看法中能够学习到什么？从根本上说，你得到的即是你所付出的，如果你为之买单，你首先应该了解你买了什么——整个包裹及其带来的所有后果。如果你选择了费舍尔模型，那么你必然拥抱微小突变论，并且你已经强制排除了除自然选择以外的其他任何原因作为语言演化的驱动力。正如我们所看到的，你同时失去了能够解释复杂细胞从原核生物中的起源、眼睛的起源以及其他诸多问题的能力。另一方面，如果你不相信费舍尔模型且具有更现代化的眼光，那么你就为更多的可能性敞开了大门。

现在我们回到人类的图景中来，对人科世系原始考古记录的考察是支持非渐进论的场景，而不是渐进论的场景：重复出现的模式是“新技术与新物种的出现（及灭亡）在时间上总是断裂的”（Tattersall 2008, 108）。其中的重点显而易见。根据塔特索尔的观点，当一个新的、形态不同的人科物种出现时，并没有同时产生技术或文化创新。相反，技术或文化的创新通常要远远晚于每个新人科物种的出现——数以成百上千年计。换言之，如塔特索尔（2008, 103）所写的，“技术创新与人科新物种的出现并不相关”。比如说，奥尔德沃文化的石器［第一型石器］约出现于距今250万年。近期发现的更古老一些的工具可追溯到330万年前，发现于肯尼亚的洛迈奎（Harmand et al . 2015）。这些古老的工具保持了约一百万年的时间，直到阿舍利文化的石斧［第二型石器］的出现。然而，正如塔特索尔（2008, 104）所说，这个技术的创新“显著地晚于一个新人科物种的出现，即现在常说的匠人”。施温提·柏保（Svante Pääbo）领导了古DNA的发现以及尼安德特人和丹尼瓦索人基因组的测序，他在最近的一篇综述中也赞同了这种观点：“仅在约260万年前，人类祖先才开始制造出考古学家发现后所认定的石头工具。但是即便那样，所造出的不同工具成千上万年以来并没有多少变化。”（Pääbo 2014, 216）

类似的情况是，尽管人科世系出现后脑容量一直在增加，尼安德特人的脑容量平均来说甚至比现代人还大，但他们在行为和物质的改进方面却是滞后的。直到现代人在非洲首次出现，我们才看到了工具以及首次出现没有争议的符号性手工艺品的快速发展与变化，如贝壳装饰，颜料的使用，尤其是约8万年前在布隆伯斯洞穴（Blombos Cave）发现的几何图形雕刻（Henshilwood et al . 2002）。柏保也同意这个观点：他曾说，必然有某些东西将我们与尼安德特人区分开来，使得我们这个从未渡过开阔的海域，也从未离开过非洲的物种不断地扩散，在短短几万年间跨越了整个地球。那么这个东西是什么？

跟塔特索尔一样，柏保也强调了尼安德特人缺乏现代符号行为，如具象艺术和其他一些装饰品。这是一条很强的线索（Pääbo 2014b）。显然，我们的祖先在离开非洲前已经具备了“它”，我们跟塔特索尔一样，怀疑这个“它”就是语言。柏保则持有异议。他提出，使我们与众不同的是“我们共享注意力的习性，以及能够向他人学习复杂事物的能力”——在此，他采用了他的同事迈克尔·托马塞洛（Michael Tomasello）的观点，将语言视为文化学习的一个方面（Pääbo 2014b, 3757—3758）。我们觉得他对于语言以及语言获得的认识是错误的。柏保似乎又回到了上世纪博厄斯派（Boasian）人类学主义的观点，在下一章中我们会叙述。

无论如何，我们的祖先从非洲大迁徙的结果是，有一个特殊的人科物种——我们——最终支配了这个世界，吸取了尼安德特人与丹尼索瓦人基因中所有的优势，将剩余的剔除掉——也许这是一个空想的情景，但是，从我们这个物种离开非洲之后的历史来看，这又是一个常见又令人不安的情景。 ^[2]

在诸如火、遮蔽物或具象艺术这样的新工具技术或创新中，我们没有看到任何类型的“渐变主义”。尽管能够有控制地使用火是在大约100万年前开始的，那也是在匠人出现整整50万年之后了。塔特索尔指出，这种典型的静态后出现创新性跳跃的模式与“扩展适应”（exaptation）这一概念相一致——也就是说，自然选择演化总是利用已有的性状，赋予其新的用途，而无法“预见”某个具体的性状在将来会有什么用处。因此，创新的出现独立于他们最终所被选择的功能。自然选择与筛子一样，给它什么它才能筛选什么。任何创新都必须先通过其他方式创造出来，就像出炉的金砖一样。语言的先行成分在某种意义上一定是已经存在的。那么这些成分是什么呢？

三元模式，发声学习，基因组

任何关于语言起源的论述都必须处理什么是已经演化好了的。在我们的三元框架中，前文概述的三个组成部分自然地解决了这一点：（1）组合性操作合并以及类似词的原子成分大致是人类语言句法的中央处理器（CPU）；两个接口；（2）感知运动系统接口——语言系统中负责外化的部分，包括发声学习和产出；以及（3）用于思维的概念—意向接口。我们在此先聚焦于（2），受感知运动接口所调节的发声学习和产出。

如本章开头所提到的，因为存在如鸣禽这样的动物模式，研究者现在似乎接近于理解发声学习——它显然是一个基因模块化的“输入—输出”顺序加工的组分。如普芬宁等人（Pfenning et al . 2014）所说，由于演化与生物物理的限制，发声学习系统的构建方式可能寥寥无几，因此这个组分在不同的发声学习物种中可能是相对一致的。这并不排除不同的物种有不同调音方式的可能性，比如人类就既可能有听觉和言语系统，也可能有手势和视觉感知系统。

这个“输入—输出”系统的图景与 FOXP2 理论是相匹配的。我们的观点是， FOXP2 起初是构建组分（2）系统的一部分，即感知运动接口的一部分，主要参与狭义句法的外化——它像与电脑连接的打印机，而不像电脑的中央处理器。在第三章中我们会讨论支持此立场的语言实证证据。但其他证据也存在。近期的一项研究（被注入了人类版Foxp2的转基因白鼠研究）显示，人类版Foxp2在“调节皮质基底节神经节回路”中发挥了作用，提升了将陈述性获得的肌动技能转换至程序性记忆的能力，如对骑自行车的学习（Schreiweis et al . 2014, 14253）。这个发现与外化观点相当一致。这种由陈述性向（无意识的）肌动技能的转化，看起来正是婴儿学习如何用嘴、舌头、唇、声道或手指舞出“精巧的芭蕾舞蹈”的方式，即我们所说的言语或手语。诚如几位学者所指出，许多方面当然仍是未知，因为“这些发现与人类版Foxp2在塑造人类大脑的发展，从而使其具有语言和言语获得之类的性状，它们之间的关系仍然是未知的”（Schreiweis et al . 2014, 14257）。

至少在我们看来，施雷维斯（Schreiweis）的实验和普芬宁及同事的发现（Pfenning et al . 2014）显然证实了语言外化系统中的发声学习与产出部分不是人类独有的。我们和鸟类分离的演化时间长达6亿年之久；尽管如此，发声学习的鸣禽（如斑胸草雀、蜂鸟）与人类的专门负责歌唱和语言的区域及其基因组有着惊人的相似之处。相比之下，非发声学习的鸟类（鸡、鹌鹑、鸽）以及非发声的非人类灵长类动物（猕猴）则不具有发声学习者（鸣禽或人类）的这些基因组。

普芬宁等仔细筛查了鸣禽、鹦鹉、蜂鸟、鸽子、鹌鹑、猕猴和人类大脑中成千上万的基因及基因表达谱，试图将基因表达水平的相关性（不论转录水平高或低）与被试物种的大脑已知区域的复杂层级分解相关联。其目的是为了发现与非发声学习者（鸽子、鹌鹑、猕猴）相比，在发声学习者（鸣禽、鹦鹉、蜂鸟、人类）中，无论特定基因在次区域的表达水平高低，它们的次区域在不同物种之间是否相匹配。答案是肯定的：相同的基因组转录谱在发声学习者中可以对齐，而发声学习者与非发声学习者之间则不能对齐。如果我们将基因想象为扩音器中的声音声调控制键，那么这些控制键在发声学习物种中是以相同方式“调音”的，而非发声学习物种的调音则与此不同。

例如，鸣禽与人类在类似的大脑区域具有差不多的轴突导向基因 SLIT1 （FOXP2的一个DNA靶）的下游调节，即所谓的雀类RA区域（弓状皮质栎核）和人类的喉运动皮层。如普芬宁等所指出的， SLIT1 的蛋白质产物“与 ROBO1 轴突导向受体共同作用，且 ROBO1 的突变会导致人类的读写困难（dyslexia）和语言障碍。…… ROBO1 是发声学习哺乳动物的趋同氨基酸置换的五个候选基因之一”（2014, 2156846—10）。显然， SLIT1 基因是确保鸣禽与人类大脑恰当“对接”的生长网络的一部分。

与 FOXP2 类似，该方法所发现的许多基因都负责上调或下调DNA及其对应的蛋白质产物。但我们仍不清楚它们是如何因果交织在一起。普芬宁（个人通信）计划下一步追踪至少一部分基因。这涉及发现“调控调控者”的DNA模体（motif）。这是完全正确的方法，也关系到我们所回顾的演化与演化性改变。自金与威尔森（King & Wilson 1975）开创性的分析以来，我们便了解到，人类与黑猩猩在大分子水平上的相似度高达99%——大分子即参与生物体的工作生物化学的蛋白质——并且，如果我们将人类与我们的非人类祖先相比，这种相似度甚至会更高。金与威尔森得出了明显且重要的结论：人类与黑猩猩的差异主要存在于调控元件。这个结论的意思是，蛋白质编码基因的变化可能并不是演化活动发生的地方——使我们变成人的演化可能尤其如此，因为这是一个相对新近的事件。

在过去四十年中，金与威尔森的重要观点已无可辩驳地被证实了，其中既包括非编码DNA也包括其他调控基因活动的组分，从环绕DNA的染色质支架，到在发育中（尤其在脑发育中）调控DNA的微小RNA——也就是所谓的演化发育生物学变革的一部分（Somel, Liu & Khaitovich 2011）。

在此，我们将着重讨论控制DNA的基因调控系统的一个因素，即所谓的增强子（enhancers），以及为何这一类调控与演化的相关性较强。（此处由于篇幅有限，我们不再考虑与演化性改变相关的其他基因组区域，如顺式调控元件；参见Wray, 2007）。一个增强子是一小段DNA，约有1,500～2,000个DNA核苷酸（腺嘌呤Adenine，胸腺嘧啶Thymine，胞嘧啶Cytosine，鸟嘌呤Guanine）那么长，它不能编码功能蛋白质，与 HBB 基因对于血红蛋白ß珠蛋白的蛋白质链，或 FOXP2 基因对于FOXP2蛋白质类似。增强子不编码任何蛋白质——因此它被称为非编码DNA。

它的功能是什么？增强子位于距蛋白质编码基因起始点一段距离的“下游”或“上游”，也许有百万个DNA核苷酸的距离，随后通过“翻转”接触到起始点以及其他引发DNA转写所需要的组成部分——一个启动子（promotor），RNA聚合酶II和其他转写因素（也许甚至包含FOXP2本身）。一旦所有组成部分都就位后，那么，启动子将会点燃焰火，DNA转写的机器便开始运转了。

从演化的视角来看，至少有两个原因值得我们关注增强子。首先，它们比蛋白质编码DNA更具针对性。蛋白质编码DNA可能（通常也确实）在有机体中发挥不止一种作用，在许多不同的组织和细胞中发挥功效，而一个增强子只影响一小段DNA，因此，它与启动子和转写因素共同被调至一个单一的特殊环境。所以，增强子的突变不易造成非局部的不良反应。增强子是模块性的。这一点非常适合演化性实验——无须过多地担心一台复杂的机器因为夹住了一个扳手而受到破坏。其次，增强子一般只位于DNA两条链中的一条（一般与蛋白质编码DNA位于同一条链上）。这一点与蛋白质编码DNA基因不同，它们可能需要存在于DNA的双链上——即所谓的纯合状态（homozygous state），从而能够显露成为表型——如蓝色眼睛的经典案例。这也是第二种演化优势：生物体无须等到DNA双链都发生变化之后。最重要的一点是，增强子的演化修补原则上容易得多——人类具有超过10万个增强子，它们都挑选特定的基因环境。因此，毫不意外，为了深化对鸟类和人类的发声学习的认识，鸟类研究者在今后的研究中将会以此为首站。最近，促进神经细胞分裂的人类—黑猩猩DNA差异首次得到了功能性确认，从而证实了这一思路。下面我们会再作详述（Boyd et al . 2015）。

回到总体的情况，这些结果对发声学习有什么演化性启发呢？普芬宁等人（2014, 1333）总结道：“那些从一个共同的祖先分离了数百万年的物种，发声学习具有趋同的神经回路，并伴随着多种基因的趋同性分子变化，这一发现表明了复杂性状的脑回路从祖先的演化方式可能是有限的。”换言之，构建发声学习的“工具包”也许包含了一个（保守的）软件包，具有100～200个基因特化，无论哪种物种都可以快速启动起来——因此可以较为迅速地演化。这符合我们关于语言相对迅速涌现的总体观点，以及我们将输入—输出的外化系统的演化与“中央处理器”，即与人类语言的句法区分开来的方法。

有关人类大脑与语言的演化，现代分子生物学还能告知我们什么？我们在此无法完整叙述这一发展迅速的领域，只能挑选出一些主要观点以及一些广为人知的主要障碍。

首先，由于近期对于古DNA的研究，我们可以计算出能够发现多少个基因差异以及什么样的基因差异，进而得知它们是如何与我们和尼安德特人、丹尼索瓦人以及黑猩猩的已知基因差异相联系起来的。至于预期的差异，我们与已经灭绝的人科祖先（如尼安德特人）分离的时间相对较近——50万至70万年前——而现代人约20万年前出现于南非，因此，这两个事件之间大约有40万年的演化时间。我们可以使用理论种群遗传学的分析工具，包括选择力预估、种群大小，以及DNA突变率，用来计算人类种群中预期固定的不同的正向选择基因组区域的数量——它们在现代人中没有产生变异，因此在功能上非常重要，但在非人类物种中则有所不同。据多个来源的估算，10万～20万年前所谓的有效种群的规模约为1万个——与很多其他的哺乳类动物相比，这一数量相对较小（Jobling et al . 2014）。选择力（即适应度，用 s 来表示）在任何情境下都难以估计，但我们可以运用来自种群选择中近期最强的信号，即乳糖耐受基因 LCT （Tishkov et al . 2007）而给出0.10的上限。这个数值极高。基于这些参数，据一个近期的研究估计，共有大约700种有益突变即使在具有强烈的选择优势s=0.01的情况下，也仅有14种在人类种群中存活且固定了下来（Somel, Liu & Khaitovich 2013）。这种低存活数的原因是我们在上一部分所提到过的“随机重力井”效应，其损失的可能性约为（1– s /2），也就是700种的98%，即686种损失，14种固定了下来。

结果证明，这一理论预估与实际情况相当接近。尼安德特人与丹尼索瓦人的全部基因组顺序表明，在现代人类中分别存在87种和260种已经固定的功能（氨基酸变化）基因组差异，它们不存在于这两个已经灭绝的物种中（Pääbo 2014a, 补充表1）。柏保写道，这些差异具有特殊的意义，因为至少从基因组的角度来看，它们凸显了是什么使我们成为人类。从尼安德特人与人类的差异来看，在约40亿可能的差异中存在31,389种单DNA核苷酸差异（单核苷酸多态性，或SNPS）；125个DNA核苷酸插入或核苷酸删除；3117个调节区差异（此处取“调节”的特殊定义）；以及87个基因中共计96个氨基酸差异。（有些基因具有超过一个的氨基酸差异。）这份“差异列表”能够告诉我们什么呢？

在自然选择的筛子中，三万多个SNP差异中的许多个甚至是大多数都不起任何作用——它们是中性的。与柏保一致，我们先暂时将三千多个调节区差异也搁置一旁。余下的则是我们与尼安德特人之间的87个蛋白质编码差异——差异数量并不多。比如说，我们显然与尼安德特人具有相同的FOXP2蛋白质，尽管有证据表明人类种群中有一个 FOXP2 调节区尚未稳定，而且它的变体与尼安德特人不尽相同，这点我们会在第四章中进一步讨论。 ^[3] 在那些编码不同蛋白质的基因中，有一些已经确定与语言和认知无关。例如，至少有三个不同的基因与皮肤的形成有关，考虑到人体毛发的脱落和随之而来的皮肤色素的变化，这是符合情理的。

其他一些基因组差异看起来则更有可能是认知演化的参与者。例如，柏保提到过我们有而尼安德特人没有的三种基因变体—— CASC5 、 SPAG5 和 KIF18A 。它们参与了所谓的“增殖区”（proliferative zone）的神经细胞分裂，增殖区是干细胞分裂以构建大脑的地方（Pääbo 2014a）。然而，在编写本书的时候，我们并不知道这些基因编码的蛋白质是否真的导致了我们与尼安德特人不同的发育结果或不同的表型——即更大的或不同的大脑，或者更准确地说，在正确的部位更大的大脑，因为尼安德特人的颅容量平均大于我们，尽管这也许是因为他们的脑后部（枕骨部分）更加歪曲。这是我们现在需要克服的主要障碍：找出从基因型通往表型的道路。

脑发育涉及至少一个调控基因的差异——一个存在于我们和其他类人猿之间的差异，尽管不存在于我们和尼安德特人之间（Boyd et al . 2015）。在这个案例中，我们对这个功能性问题已经有了答案。在人科世系的整个历程中，颅容量和脑尺寸是普遍增长的，200万～280万年前的能人，据重新估算，颅容量约为727～846立方厘米，到直立人时，约为850～1110立方厘米，且从那时开始不断扩大。人科世系在此与其他类人猿有了区别。是什么驱动了大脑扩大？如果我们观察人类经历了加速演化的增强子区域，会发现许多增强子位于参与构建我们的大脑的基因附近（Prabhakar et al . 2006; Lindblad-Toh et al . 2011）。博伊德（Boyd）和同事瞄准了将人类与黑猩猩区分开的增强子之一， HARE5 ，并用人类或黑猩猩的 HARE5 构建了转基因老鼠。不同的老鼠是否展现出了不同的颅增长呢？答案是肯定的：与普通老鼠或具有黑猩猩 HARE5 的老鼠相比，具有人类增强子的老鼠的脑尺寸大约增长了12%，这显然是由于神经祖细胞的细胞分裂率的快速增长。如前所述， HARE5 增强子与启动子区域的一个关键基因串联工作，该基因参与新皮层发育途径，即 FZD8 。该研究指明了一条道路——尽管费力——用实验验证尼安德特人与人类的差异列表中的87个基因的表型效应。但是我们需要了解的不止这些。即使我们已知 HARE5 促进脑增长，我们仍需知道脑增长与我们所称的语言的认知表型是如何相联系的。

那么三千多个调控区差异如何？索梅尔（Somel）和同事发现，“越来越多的证据表明，人类的脑发育是通过人类与尼安德特人分离之后与现代人类出现之间的短时间内的几个基因事件而彻底重塑的”（Somel, Liu & Khaitovich 2013, 119）。他们挑选出了我们与尼安德特人的一个特别的差异：出现在一个突触生长的调控基因上游的调控DNA片段，即 MEF2A （肌细胞增强因子—2）。他们将此称为“人类大脑皮质扩展的突触发育的潜在转录调控因子”——它是人类发育的一个标志性特征，即儿童期延长（Somel, Liu & Khaitovich 2013, 119）。然而，对于一小片段DNA来说，这似乎是一个沉重的解释负担。

从我们与黑猩猩最后的共同祖先直到今天，与头骨形态和神经生长相关的其他新基因和调控元件一直不断积累，当然这也是人科世系所共有的。比如，已知 SRGAP2 基因在人类皮质发育与神经元成熟中发挥一定的作用。它在向我们的世系发展中复制了三次，其中一次复制大约出现在人科世系刚出现的时间，约200万～350万年前（Jobling et al . 2014, 274）。类似的基因复制在演化创新中起到非常重要的作用，因为它允许其中的一个复制品“自由活动”并承担新的功能（Ohno 1970）。见本章注释9。

重点是什么？也许一个困难的问题是尼安德特人是否具有语言。我们与尼安德特人和丹尼索瓦人的基因组差异非常小，因此有些研究者认为尼安德特人具有语言。对此我们持怀疑态度。我们并不了解“基本特性”的基因组或神经基础。实际上，判断解剖学上的现代人类在8万年前是否具有语言也不太可能，我们能够判断的只是语言行为的符号性特征。与塔特索尔（Tattersall 2010）一致，我们也指出了能够证明尼安德特人具有符号行为的实质性证据少之又少。相反，约8万年前出现在南非的解剖学意义上的现代人类则表现出了明显的符号行为标志，并且出现在他们向欧洲迁徙之前。第四章会再讨论这个问题。

我们的普遍问题是，对于神经“湿件”（即大脑）内最基本的计算操作是如何进行的知之甚少。例如，兰迪·加利斯泰尔（Randy Gallistel）多次强调，计算机科学家们首先想了解的便是计算机如何写入和读取内存——这是图灵机模型的基本操作，最终也是所有计算装置的基本操作。但我们其实并不清楚计算最基础的元素在大脑中是如何执行的（Gallisted & King 2009）。比如，关于执行语言层级结构加工的常见提议之一是将其视为一种循环神经网络，在模拟“下推栈”时具有指数性衰减（Pulvermüller 2002）。可惜，生物能学的计算表明这很可能是错误的。加利斯泰尔发现，每个动作电位或“脉冲”（spike）都需要7×10 ⁸ 腺嘌呤核苷三磷酸（ATP）分子的水解（hydrolosis）（活细胞分子的基本“电池”储存量）。加利斯泰尔估算，假设每次操作需要一个脉冲，每秒钟需要大约10 ¹⁴ 脉冲才能达到所需的数据加工能力。不过，我们的确会花很多时间去思考，去读像本书这样的书，充满热血激情，但不太可能达到这个程度。类似的问题困扰着每一种基于神经脉冲序列的方法，包括动力状态方法，而这些困难似乎经常被忽视了（细节请参看Gallistel & King 2009）。仿照语言认知科学中以人名命名关键问题的时髦做法（如“柏拉图问题”，“达尔文问题”），我们将此命名为“加利斯泰尔问题”。第四章我们会在计算与合并的背景下详细讨论“加利斯泰尔问题”。

约50年前，马文·明斯基（Marvin Minsky）在他1967年的《计算：有限与无限的机器》（ Computation: Finite and Infinite Machines ）一书中用几乎相同的话提出了“加利斯泰尔问题”，突出了进展的微小：“可惜的是，关于信息是如何在神经系统中存储的，比如它们是如何学习的，我们仍没有确定的认识，甚至没有一个普遍被接受的理论……有一种理论提出短期记忆是‘动态的’——以电磁波在闭合的神经元链上反弹的形式而储存。……近期，许多出版物中提出，记忆的存储与遗传信息类似，是以核酸链的形式出现的，但是我没有看到这些理论哪一个被制订出来并可以合理地解释写入和读取的机制。”（Minsky 1967, 66）就我们的理解而言，明斯基的话如今仍是正确的，加利斯泰尔问题仍然未能解决。埃尔斯·绍特马里写道：“语言学今天所处的阶段是遗传学在孟德尔之后的阶段。已经有了（句子产出的）规则，但我们仍不知道规则背后的机制（神经网络）是什么。”（1996, 764）他说的没错。

无论我们多么想知道是什么使我们成为人，以及语言在基因上是如何出现的，但令人不安的是，科学家们并未发现任何确凿的证据表明智人最初作为一个物种出现的时候，自然选择做过正向的“选择性清除”工作。这也许是由于我们对于过去的人口历史知识不够完善所带来的不可避免的事实，也可能是由于选择性清除的相对稀少；库普（Coop）与普热沃斯基（Przeworski）认为，演化也许仅仅利用种群中已经存在的变异（Jobling 2014, 204）。 ^[4] 无论如何，正像他们接着所说的那样，对于如语言这样的性状的遗传学分析是“现阶段人类演化遗传学的核心挑战”（Jobling 2014, 204）。对此我们完全赞同。

[1] 例如，我们可以假定任何一个具有“更适应”的基因的特定个体的后代数量呈泊松分布（Poisson distribution），平均值为1 + s/2，s代表文中提到的适应度优势，那么其后代数量可以是0、1、……、∞无穷大。那么其后代数量为i的可能性为e -µ µ i /i!, e表示欧拉数，自然对数的底数。如果我们假设适应度优势为0.2，那么其对应的泊松平均值应为1 + 0.1。这一更具适应度的基因在某一代具有0个后代的可能性为e -1.1 1/1，也就是0.33287左右，大于1/3。需要注意的是，一个完全“中性”的基因，不具有任何选择优势，其在某一代没有后代的可能性也并不会明显高于 1/e，即0.36787。（对于这一重要论点的更多讨论，见Gillespie 2004, 91—94。）现代综合论的创始者之一霍尔丹（Haldane 1927）是其中第一位提出这类“出生—死亡”计算的。

[2] Chaterjee et al . 2014为找到编码新的生物功能的基因组序列所需的时间的估算提供了另外一种方式。他们展示了大体上，由于需要搜索的可能的基因组序列的空间太大，并且自地球上的生命起源起大约已有109年的时间，那么适应所需的时间太长。经历适应的基因组序列的长度呈指数增长，比如我们所讨论的DNA序列长度——细菌基因的平均长度大约是1000个核苷酸。为了使它的时间能够降至“可处理”的量，也就是说，序列长度可在多项式时间解决，他们提出可以施加一个限制，即初始的基因组序列可以“再生”——也就是说，搜索能够很容易地回到起点。这一结果有一个自然的生物解读，即起点应该距目标序列很“近”，这就意味着如果我们复制一个基因组序列，它距离适应性的目标不会那么遥远。需要注意是，这就否认了一些作者的比较流行的观点，例如，斯蒂德曼认为“演化具有无尽的资源，这些过程的数量仅受到地球上物理资源的限制，而加工时间则只受到地球持续存在下去的时间限制。它本质上是通过对目前每个可行的变异上的每个可能的变异进行尝试”（Steedman 2014, 3）。这是错误的。事实上，演化只对基因组“序列空间”和形态—生物变异中非常非常小的一部分进行了探索，如马丁·诺瓦克（Martin Nowak）的研究所表明的那样。它总是会重复地回到之前已经解决的问题上来。根据诺瓦克的研究，它的方式之一可能是基因组复制。基因组复制的意义一直以来被认为是能够使得起初好的演化解决方法的起点得以再生；它也是提出的获得新的生物功能的一个主导方式之一。被复制的DNA并不受选择限制的制约，它能够自由地改变去“追寻”新的目标功能，因为它有一个复本能够占据任何的位置。参看Ohno 1972。

[3] 如果这两个人类／尼安德特人中的改变在功能上的确如此重要的话，那么我们则可以预计它们会在繁衍的性别重组中“粘在一起”，但这并不是Ptak et al . 2009所发现的结果。此外，当人们尝试把这两个尼安德特人以及人类独有的 FOXP2 区域的起源时间“对齐”时，发现它们的时期并不一致。结果是， FOXP2 演化的位置、本质与时间都尚存争议。根据一些近期的研究成果（Maricic et al . 2003），人类与尼安德特人的 FOXP2 的基因变体在关键的调控区域存在差异，看起来人类的这一区域历经了近期的选择性清除。由于这一原因，我们先前认为参与了选择性清除的、人类与尼安德特人的共同祖先在这一基因区域中两个氨基酸的位置，实际上并没有参与选择性清除。其实，参与的是另一个区域，并且只在人类中发生。

[4] 最近，Zhou et al . 2015 使用“溯祖”模拟以及对古DNA的全基因组分析，发展出了一个新的检测选择性清除的方法。加之来自非洲，欧洲和亚洲族群的千人基因组第一阶段的数据，他们声称能够避开人口变迁中我们熟知的干扰问题。他们还声称能够区分正向选择，纯化选择（即负选择）与平衡选择，并且能够预估选择的强度。周等选出了非洲大迁徙前，人类世系中的五个与大脑相关的基因的正向选择的信号。有趣的是，它们都与阿尔茨海默病有牵连。他们并未选出任何千人基因组第一阶段数据中非洲（约鲁巴-YRI）群体中的 FOXP2 的正向选择的信号，但他们检测了约1000代之前，也就是约2, 2000—2, 5000年前的来自中欧（在犹他收集的）人口数据（CEU）中的一个 FOXP2 的正向选择信号。这一时期与既有研究不太一致，这再次指明了由于人类族群复杂的谱系史，推断过去所发生的事情是比较困难的。这一新提出来的方法是否的确能够规避人口统计估算以及其他问题中广为人知的困难，目前还不得而知——由于目前弄清楚阿尔茨海默病还很困难，那么可以想象想要了解一位生活在20万年前的“患者”是否患有阿尔茨海默病会是多么困难。

第一章 为何是现在？

演化理论的演化

三元模式，发声学习，基因组

第一章
为何是现在？