为什么需要生物学思维：洞悉复杂世界的思考方式最新章节_塞缪尔·阿贝斯曼著

原因4：普遍的稀有事物

在中学时期，英文老师教会了我语法，因此我很早就知道，不规则动词to be的两个单词是必须连在一起用的；我还记住了很多介词，并学会了造句。在那个时候，根据语法规则来分解句子，将句子的修饰成分去除，剥离出它的逻辑骨架，是一件很有趣的事情。你可以将语言简化到原子量级，如名词、动词和形容词，然后再来看它们是如何关联在一起的。

尽管语言无法用方程式来表达，但是语法确实拥有一种独特的、有秩序的美感。然而，构建一个语言处理系统并不是一件容易的事。任何一种语言都有很多习惯性表达，而且其内涵往往比我们想象的要丰富得多、“狡猾”得多。因为语言具有非正式性，所以使用者在面对作为规则集合的语法时，多半只会深表认同，而不会严格遵从。所有这些都属于同一类边界情况，它使下面这个简单规则无法成立：每个句子都必定是“主语－谓语－直接宾语”这种结构的变形。为了更好地理解语言中的边界情况，我们现在来讨论一下所谓的罕用语（hapax legomena）。罕用语可谓“普遍的稀有事物”（common rarities）。

请问你以前用过snowcrie这个单词吗？我想你应该没有用过。事实上，snowcrie这个词是无意义的。据我所知，它可能是一个错词。根据《牛津英语词典》的解释，snowcrie这个词曾经出现在1402年的一首诗中：“Not in Goddis gospel，but in Sathanas pistile，wher of sorowe and of snowcrie noon is to seken.”。有学者认为它应该是一个错词， ^[51] 正确的那个词可能是sorcerie，意为巫师。

不管有没有意义，snowcrie这个词就是所谓的罕用语，或者说“只用过一次的词”。这个词在《牛津英语词典》的语料库中只出现过一次。语料库是大量的、通常是完整文本的合集，例如某种语言的全部文本，或某个时期的所有文本。《牛津英语词典》的语料库即是编写者可以使用的所有英语文本。不过，语料库的文本体量并不一定非常大。在莎士比亚文集这个语料库，也就是莎士比亚的全部著作中，经常会碰到一些罕用语，比如honorificabilitudinitatibus，含义可能就是“荣誉”（of honor）。

当一个语料库拥有某种语言的全部，或近乎全部的文本时，罕用语就会变得让人头疼，比如《希伯来圣经》中的希伯来语，人们对它们的意义知之甚少。但是，罕用语并不是离奇的统计错误。它们不仅比想象中更加普遍，而且与语言学中特定的数学规则有关。语言中不同词汇的使用频率可以用幂律（power law）中的长尾分布来进行描述。 ^[52] 长尾分布与用来描述人类身高的钟形曲线（bell curve），即正态分布，有所不同。在长尾分布中，有一些值会延伸到更加深远的区域，以便容纳普通词汇，比如the，或一些极其罕见的词汇，比如flother。

一般来说，语料库中有近一半的单词都只出现过一次，也就是说，有一半的单词都属于罕用语。这些词就是长尾中“长”的部分。 ^[53] 因此，虽然你遇到某个特定罕用语的概率很低，但是你遇到这类词的概率却相当高。在这里，我们不妨用看电影来做下类比。相信并没有太多人看过那部大名鼎鼎的经典电影《天生爱神》（ The Adventures of Buckaroo Banzai Across the 8th Dimension ），但是看过至少一部经典科幻电影的人却大有人在。

因此，作为一个整体类别，罕用语是非常重要的。它们深深地渗透在我们的语言之中。当我们试图编写一个计算机程序来模拟语言时，可能会将罕用语，或罕见的语法结构抽象为异常值。但是，作为一个类别，而非一个单词，罕用语在语言中所占的比例其实是相当大的。将它们抽象化会导致模型的严重缺失，从而使程序变得不完整。为了避免“遗漏”， ^[54] 我们需要建构出可以处理例外情况和边界情况的复杂模型。在这个问题上，谷歌公司研发主管彼得·诺维格（Peter Norvig）的话可谓一语中的：“形成一种语言的，并不是那种可以用几个参数来代表的永恒的理想模型，而是复杂过程中的偶然结果。” ^[55]

因此，计算机语言学家应该考虑边界情况，并尝试着针对这个复杂系统构建一个稳健的、丰富的技术模型。在这里，复杂系统指的就是语言。那么，他们最终会得到什么呢？毫无疑问，他们将会得到一个复杂的技术系统。

和语言有关的计算机模型必定具有复杂性。要说明这一点，只需举一个例子就够了：计算机是如何将一种语言翻译成另一种语言的。关于计算机的翻译功能，有一个流传已久但未经证实的故事。 ^[56] 在冷战期间，科学家们就已开始研究英俄语互译的运算方法了。在测试计算机的翻译程序时，他们选择了一个含义相当微妙的句子“The spirit is willing，but the flesh is weak.”（灵固有所愿，肉却软弱不堪）。他们通过计算机将这句话翻译成俄语，然后再次翻译成英语，最终得到的是“The whiskey is strong，but the meat is terrible.”（威士忌很有劲，但是肉却很难吃）。

显然，通过运算来实现机器翻译功能并非易事。谷歌翻译虽然有趣，但结果却可能不够准确。不过，专家在这方面已经取得了很大的进步。

那么，机器翻译专家使用的是哪些技术呢？ ^[57] 早期的一种方法是利用语言的结构化语法，进行模型搭建。计算机语言学家将每种语言的属性硬编码为软件，然后让计算机根据语法规则进行翻译。这种方法可以处理相对简单的句子，但无法应对日常语言的多样性。例如，一个用来处理“直接不定式”的规则，不一定能够处理“分离不定式”，即无法处理“To boldly go where no one has gone before.”（勇敢地进入前人未曾涉足之地）这样的句子。另外，不定式的用法还具有一定的地域性，比如，匹兹堡人很喜欢省略掉to be，直接说“The car needs washed.”（这车该洗了）。很显然，面对这种形式灵活的“方言”，语法规则将束手无策。

事实上，依赖上述语法模型的机器翻译程序是不可能给出准确结果的。语法规则看上去既优雅又简洁，但无法应对文本翻译过程中所需处理的，复杂且古怪的语言现象。简而言之，边界情况实在太多了。为了填补这道鸿沟，机器翻译专家引入了机器学习领域的多种统计方法，他们让计算机先摄取大量已经翻译好的文本，然后基于一组算法翻译新文本。这样一来，计算机就不用理解句子的含义，也不必解析句子的语法结构了。举例来说，对于复数问题，我们不再需要创建复数的语法规则，规定将后缀“-s”加在单词末尾，就能够使之变成复数形式；我们只需让机器知道，“-s”这个后缀在99.9%的情况下意味着创建了一个复数形式的单词，而在剩余0.1%的情况下并非如此。 ^[58] 例如sheep和deer，它们的单复数形式相同；此外，还有一些单词的复数形式是不规则的，如men、feet和kine。对于语言系统中的其他例外情况，也都可以采用这种运算方法。

尽管摆脱混沌就能迎来秩序，但这不可能没有代价。最终得到的最有效的翻译程序肯定不是一个简单的模型，而会是一个拥有大量参数的庞大的计算机系统，若非如此，便无从处理数之不尽的边界情况和语言“异象”。正如谷歌翻译开发团队的成员所说，这类“基于数百万具体特征的模型，要比那些关注一般规则的精巧模型表现得更好” ^[59] 。我们必须要对例外情况加以珍惜，绝不能随手丢弃。要知道，无论是例外情况，还是罕见情况，都包含了大量的信息。

这种机器学习技术利用的是概率和大量参数，而非原则性的规则。 ^[60] 这种尖端技术正越来越多地被应用于科学领域和其他诸多领域，从犯罪侦测到医学诊断，再到保险推销，等等。事实上，我们的审美品位也相当复杂。奈飞公司在向一个团队颁发“推荐引擎改进奖”时发现，该团队的解决方案是由各种统计技术拼凑而成的。这场比赛似乎表明，没有哪个简单的算法能够显著提高推荐的准确性；无论谁是获奖者，都需要使用更复杂的方法来捕捉和预测人们对电影的个性化需求和“怪异”品位。

这种现象其实在所有类型的技术当中皆有呈现。计算机科学家小弗雷德里克·布鲁克斯明确指出：“软件的复杂性是软件的根本属性，而不是偶然属性。” ^[61]

即使是法律体系这个复杂系统，也会受到例外情况和边界情况的影响。很多人都认为，在合法与非法之间有一条明确的界限，但事实并非如此。恰恰相反，边界会随着时间的推移而不断伸缩、折叠，变得凹凸不平或纠缠不清，所以边界不可能是一条明确的界限。最终，法律体系看上去会是一个分形结构：无论你将一个小的图形放大多少倍，依然会发现很多的不均匀，依然有更多的细节需要进一步观测。 ^[62] 任何的一般性规则最终都必须应对例外情况，而后者又会裂解成更多的例外和规则，从而形成越来越复杂的分支结构。

对此，法学家杰克·巴尔金（Jack Balkin）在一篇题为《法律思想的结晶结构》（ The Crystalline Structure of Legal Thought ）的文章中阐释道：

我们可能会想，在关于疏忽的客观标准中，是否存在适用于儿童的例外规则；或者，是否存在适用于疯子、盲人，以及其他特殊人群的不同标准。这样的想法会引导我们开始进行接下来的规则选择，而且每个选择都会滋生出更多的法律含义分支。举例来说，假设我们遵循某个法律含义分支的发展轨迹，为儿童制定了一个例外规则，当然，现在这是一个多数规则。我们可能还会继续考虑到，当孩子从事成人活动时，是不是也需要一个例外规则，而现在，这通常也是一个多数规则。然后，我们可能会继续追问，在该规则的含义范围内，驾驶摩托车是否属于成人活动，如果是，那么驾驶小轮踏板摩托车是不是也属于成人活动？这个过程可能会一直持续下去，最终我们会得到一个关于规则选择的递减序列，但是事实上，复杂性和特异性都在不断递增…… ^[63]

法学教授戴维·波斯特（David Post）和生物学家迈克尔·艾森（Michael Eisen）也携手研究了这个问题。 ^[64] 虽然他们无法证明，任何一个法律陈述都能被进一步细分，毕竟这是一个“乌龟背上的世界”式的命题，但是他们指出：“我们确实从来没有遇到过无法分解为子问题的法律问题。”波斯特和艾森还通过模型证明，某些类型的法律分支结构实际上具有分形结构的特性。在现实中，他们对诉讼案件中的法官意见进行了分析，并在引用的法律条文中也发现了指向分形结构的特征，从而验证了模型的结论。 ^[65] 由此看来，法律体系的分形复杂性很可能不只是一个令人回味的隐喻。

正如法律学者马克·弗勒德（Mark Flood）和奥利弗·古迪纳夫（Oliver Goodenough）所指出的那样：“好合同和好律师的价值，在很大程度上基于这样一种看似烦琐的规划：对于随时可能因出轨而覆灭的婚姻关系，要如何对一切可能的出轨方式未雨绸缪。” ^[66] 换言之，法律体系的复杂性通常源于例外情况及其引发的“并发症”。

我们所观察的技术系统，无论是法律、软件、设备，还是科学模型，都会在例外情况和边界情况的驱动下，在吸积和交互的双重助力下，变得越来越复杂，越来越混乱。