购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

原因4:普遍的稀有事物

在中学时期,英文老师教会了我语法,因此我很早就知道,不规则动词to be的两个单词是必须连在一起用的;我还记住了很多介词,并学会了造句。在那个时候,根据语法规则来分解句子,将句子的修饰成分去除,剥离出它的逻辑骨架,是一件很有趣的事情。你可以将语言简化到原子量级,如名词、动词和形容词,然后再来看它们是如何关联在一起的。

尽管语言无法用方程式来表达,但是语法确实拥有一种独特的、有秩序的美感。然而,构建一个语言处理系统并不是一件容易的事。任何一种语言都有很多习惯性表达,而且其内涵往往比我们想象的要丰富得多、“狡猾”得多。因为语言具有非正式性,所以使用者在面对作为规则集合的语法时,多半只会深表认同,而不会严格遵从。所有这些都属于同一类边界情况,它使下面这个简单规则无法成立:每个句子都必定是“主语-谓语-直接宾语”这种结构的变形。为了更好地理解语言中的边界情况,我们现在来讨论一下所谓的罕用语(hapax legomena)。罕用语可谓“普遍的稀有事物”(common rarities)。

请问你以前用过snowcrie这个单词吗?我想你应该没有用过。事实上,snowcrie这个词是无意义的。据我所知,它可能是一个错词。根据《牛津英语词典》的解释,snowcrie这个词曾经出现在1402年的一首诗中:“Not in Goddis gospel,but in Sathanas pistile,wher of sorowe and of snowcrie noon is to seken.”。有学者认为它应该是一个错词, [51] 正确的那个词可能是sorcerie,意为巫师。

不管有没有意义,snowcrie这个词就是所谓的罕用语,或者说“只用过一次的词”。这个词在《牛津英语词典》的语料库中只出现过一次。语料库是大量的、通常是完整文本的合集,例如某种语言的全部文本,或某个时期的所有文本。《牛津英语词典》的语料库即是编写者可以使用的所有英语文本。不过,语料库的文本体量并不一定非常大。在莎士比亚文集这个语料库,也就是莎士比亚的全部著作中,经常会碰到一些罕用语,比如honorificabilitudinitatibus,含义可能就是“荣誉”(of honor)。

当一个语料库拥有某种语言的全部,或近乎全部的文本时,罕用语就会变得让人头疼,比如《希伯来圣经》中的希伯来语,人们对它们的意义知之甚少。但是,罕用语并不是离奇的统计错误。它们不仅比想象中更加普遍,而且与语言学中特定的数学规则有关。语言中不同词汇的使用频率可以用幂律(power law) 中的长尾分布来进行描述。 [52] 长尾分布与用来描述人类身高的钟形曲线(bell curve) ,即正态分布,有所不同。在长尾分布中,有一些值会延伸到更加深远的区域,以便容纳普通词汇,比如the,或一些极其罕见的词汇,比如flother。

一般来说,语料库中有近一半的单词都只出现过一次,也就是说,有一半的单词都属于罕用语。这些词就是长尾中“长”的部分。 [53] 因此,虽然你遇到某个特定罕用语的概率很低,但是你遇到这类词的概率却相当高。在这里,我们不妨用看电影来做下类比。相信并没有太多人看过那部大名鼎鼎的经典电影《天生爱神》( The Adventures of Buckaroo Banzai Across the 8th Dimension ),但是看过至少一部经典科幻电影的人却大有人在。

因此,作为一个整体类别,罕用语是非常重要的。它们深深地渗透在我们的语言之中。当我们试图编写一个计算机程序来模拟语言时,可能会将罕用语,或罕见的语法结构抽象为异常值。但是,作为一个类别,而非一个单词,罕用语在语言中所占的比例其实是相当大的。将它们抽象化会导致模型的严重缺失,从而使程序变得不完整。为了避免“遗漏”, [54] 我们需要建构出可以处理例外情况和边界情况的复杂模型。在这个问题上,谷歌公司研发主管彼得·诺维格(Peter Norvig)的话可谓一语中的:“形成一种语言的,并不是那种可以用几个参数来代表的永恒的理想模型,而是复杂过程中的偶然结果。” [55]

因此,计算机语言学家应该考虑边界情况,并尝试着针对这个复杂系统构建一个稳健的、丰富的技术模型。在这里,复杂系统指的就是语言。那么,他们最终会得到什么呢?毫无疑问,他们将会得到一个复杂的技术系统。

和语言有关的计算机模型必定具有复杂性。要说明这一点,只需举一个例子就够了:计算机是如何将一种语言翻译成另一种语言的。关于计算机的翻译功能,有一个流传已久但未经证实的故事。 [56] 在冷战期间,科学家们就已开始研究英俄语互译的运算方法了。在测试计算机的翻译程序时,他们选择了一个含义相当微妙的句子“The spirit is willing,but the flesh is weak.”(灵固有所愿,肉却软弱不堪)。他们通过计算机将这句话翻译成俄语,然后再次翻译成英语,最终得到的是“The whiskey is strong,but the meat is terrible.”(威士忌很有劲,但是肉却很难吃)。

显然,通过运算来实现机器翻译功能并非易事。谷歌翻译虽然有趣,但结果却可能不够准确。不过,专家在这方面已经取得了很大的进步。

那么,机器翻译专家使用的是哪些技术呢? [57] 早期的一种方法是利用语言的结构化语法,进行模型搭建。计算机语言学家将每种语言的属性硬编码为软件,然后让计算机根据语法规则进行翻译。这种方法可以处理相对简单的句子,但无法应对日常语言的多样性。例如,一个用来处理“直接不定式”的规则,不一定能够处理“分离不定式”,即无法处理“To boldly go where no one has gone before.”(勇敢地进入前人未曾涉足之地)这样的句子。另外,不定式的用法还具有一定的地域性,比如,匹兹堡人很喜欢省略掉to be,直接说“The car needs washed.”(这车该洗了)。很显然,面对这种形式灵活的“方言”,语法规则将束手无策。

事实上,依赖上述语法模型的机器翻译程序是不可能给出准确结果的。语法规则看上去既优雅又简洁,但无法应对文本翻译过程中所需处理的,复杂且古怪的语言现象。简而言之,边界情况实在太多了。为了填补这道鸿沟,机器翻译专家引入了机器学习领域的多种统计方法,他们让计算机先摄取大量已经翻译好的文本,然后基于一组算法翻译新文本。这样一来,计算机就不用理解句子的含义,也不必解析句子的语法结构了。举例来说,对于复数问题,我们不再需要创建复数的语法规则,规定将后缀“-s”加在单词末尾,就能够使之变成复数形式;我们只需让机器知道,“-s”这个后缀在99.9%的情况下意味着创建了一个复数形式的单词,而在剩余0.1%的情况下并非如此。 [58] 例如sheep和deer,它们的单复数形式相同;此外,还有一些单词的复数形式是不规则的,如men、feet和kine。对于语言系统中的其他例外情况,也都可以采用这种运算方法。

尽管摆脱混沌就能迎来秩序,但这不可能没有代价。最终得到的最有效的翻译程序肯定不是一个简单的模型,而会是一个拥有大量参数的庞大的计算机系统,若非如此,便无从处理数之不尽的边界情况和语言“异象”。正如谷歌翻译开发团队的成员所说,这类“基于数百万具体特征的模型,要比那些关注一般规则的精巧模型表现得更好” [59] 。我们必须要对例外情况加以珍惜,绝不能随手丢弃。要知道,无论是例外情况,还是罕见情况,都包含了大量的信息。

这种机器学习技术利用的是概率和大量参数,而非原则性的规则。 [60] 这种尖端技术正越来越多地被应用于科学领域和其他诸多领域,从犯罪侦测到医学诊断,再到保险推销,等等。事实上,我们的审美品位也相当复杂。奈飞公司在向一个团队颁发“推荐引擎改进奖”时发现,该团队的解决方案是由各种统计技术拼凑而成的。这场比赛似乎表明,没有哪个简单的算法能够显著提高推荐的准确性;无论谁是获奖者,都需要使用更复杂的方法来捕捉和预测人们对电影的个性化需求和“怪异”品位。

这种现象其实在所有类型的技术当中皆有呈现。计算机科学家小弗雷德里克·布鲁克斯明确指出:“软件的复杂性是软件的根本属性,而不是偶然属性。” [61]

即使是法律体系这个复杂系统,也会受到例外情况和边界情况的影响。很多人都认为,在合法与非法之间有一条明确的界限,但事实并非如此。恰恰相反,边界会随着时间的推移而不断伸缩、折叠,变得凹凸不平或纠缠不清,所以边界不可能是一条明确的界限。最终,法律体系看上去会是一个分形结构:无论你将一个小的图形放大多少倍,依然会发现很多的不均匀,依然有更多的细节需要进一步观测。 [62] 任何的一般性规则最终都必须应对例外情况,而后者又会裂解成更多的例外和规则,从而形成越来越复杂的分支结构。

对此,法学家杰克·巴尔金(Jack Balkin)在一篇题为《法律思想的结晶结构》( The Crystalline Structure of Legal Thought )的文章中阐释道:

我们可能会想,在关于疏忽的客观标准中,是否存在适用于儿童的例外规则;或者,是否存在适用于疯子、盲人,以及其他特殊人群的不同标准。这样的想法会引导我们开始进行接下来的规则选择,而且每个选择都会滋生出更多的法律含义分支。举例来说,假设我们遵循某个法律含义分支的发展轨迹,为儿童制定了一个例外规则,当然,现在这是一个多数规则。我们可能还会继续考虑到,当孩子从事成人活动时,是不是也需要一个例外规则,而现在,这通常也是一个多数规则。然后,我们可能会继续追问,在该规则的含义范围内,驾驶摩托车是否属于成人活动,如果是,那么驾驶小轮踏板摩托车是不是也属于成人活动?这个过程可能会一直持续下去,最终我们会得到一个关于规则选择的递减序列,但是事实上,复杂性和特异性都在不断递增…… [63]

法学教授戴维·波斯特(David Post)和生物学家迈克尔·艾森(Michael Eisen)也携手研究了这个问题。 [64] 虽然他们无法证明,任何一个法律陈述都能被进一步细分,毕竟这是一个“乌龟背上的世界”式的命题 ,但是他们指出:“我们确实从来没有遇到过无法分解为子问题的法律问题。”波斯特和艾森还通过模型证明,某些类型的法律分支结构实际上具有分形结构的特性。在现实中,他们对诉讼案件中的法官意见进行了分析,并在引用的法律条文中也发现了指向分形结构的特征,从而验证了模型的结论。 [65] 由此看来,法律体系的分形复杂性很可能不只是一个令人回味的隐喻。

正如法律学者马克·弗勒德(Mark Flood)和奥利弗·古迪纳夫(Oliver Goodenough)所指出的那样:“好合同和好律师的价值,在很大程度上基于这样一种看似烦琐的规划:对于随时可能因出轨而覆灭的婚姻关系,要如何对一切可能的出轨方式未雨绸缪。” [66] 换言之,法律体系的复杂性通常源于例外情况及其引发的“并发症”。

我们所观察的技术系统,无论是法律、软件、设备,还是科学模型,都会在例外情况和边界情况的驱动下,在吸积和交互的双重助力下,变得越来越复杂,越来越混乱。 M26SMcU2XT8pLdkJOuh2U6UPPbqiSHZn9YdpMbM3TfsgeR5ioVGk1C84lD3sBJ4y

点击中间区域
呼出菜单
上一章
目录
下一章
×