心理语言中的规则和表征在哪里就停止工作呢,神经网络又在哪里开始发挥作用呢?大多数认知科学家赞同“两极分化说”。在最高的认知层次,我们有意识地亦步亦趋,小心运用着我们从学校所学的规则或自己发现的规则,这时,思维就像一个生产系统,记忆中储存着符号性语句,并由“小幽灵(后台程序)”来执行程序。在较低的层次,语句与规则是在神经网络中得到执行的,神经网络对熟悉的模式做出反应,并将这些模式与其他模式相联系。但这些层次的界限在哪里却仍有争议。到底是由简单的神经网络来应付大量的日常思维事务,用显性规则和命题来处理读书学习之类的任务呢?还是神经网络更像一些全然无知的基础构件,直到它们被组装成结构分明的表征和程序呢?
有一个学派称为联结主义(Connectionism),代表人物是心理学家戴维·鲁梅尔哈特(David Rumelhart)和詹姆斯·麦克莱兰德(James McClelland)。他们认为,简单的神经网络自身就可以解释绝大多数人类智能。更有甚者,联结主义宣称,思维就是一个很大的隐含层反向传播神经网络(Hidden-layer back-propagation network),抑或可能是一组类似或相同的神经网络,而当环境这个培训师调整影响联结的权重时,智能就出现了。我们比老鼠聪明的唯一原因是,我们的神经网络在刺激与反应之间有着更多的隐含层,我们生活环境中的其他人同样也是神经网络的培训师。心理学家不可能跟踪神经网络里通过联结所产生的数百万条激活信号流,而规则和符号可能就是对于网络中这些信息流的一个简便而粗略的估计,但其作用仅此而已。
而另一种观点认为,这些神经网络本身并不能完成任务,我更倾向于这种观点。将神经网络构建成为操控符号的程序这一过程,解释了大多数的人类智能。对符号的运用是人类语言及与语言相互作用的推理部分的基础。这并非所有的认知,但已经是很大一部分了;它已是我们能与自己和他人交谈的全部了。作为心理语言学家,我在工作中搜集的证据表明,即使是讲英语所需的最简单技能,如动词过去时态的组成(walk变为walked,come变为came),对单个神经网络而言,在计算上也是过于复杂而无法处理的。在本节中,我将阐释一个更为一般意义上的证据。我们的常识性思考内容(我们谈话中交流的那种信息),需要一个设计成执行高度结构化心理语言的计算机器呢,还是用通用的神经网络这类东西(有饶舌者戏称为联结浆糊 )就能解决?我将向您说明,我们的思想有一个精巧的逻辑构成,这种构成绝非简单的同质单位层神经网络(simple network of homogeneous layers of units)所能处理的。
这与您有什么关系呢?因为这些证据对关于心智如何工作这一问题迄今最有影响力的理论提出了质疑。根据该理论,感知器(Perceptron)或隐含层神经网络(hidden-layer network)就是对一个古老教条——想法关联——的高科技执行翻版。英国哲学家约翰·洛克、大卫·休谟、乔治·伯克莱、戴维·哈特利,以及约翰·斯图尔特·密尔都提出,思想是由两条法则所决定的。一条为邻接律(Contiguity):时常共同体会到的想法会在头脑中建立关联。因而,一个被激活,则另一个也随之激活。另一条为相似律(Resemblance):当两个想法类似时,无论什么与第一个想法相关联,则自动也与第二个建立关联。正如休谟于1748年所总结的理论:
自身体验带给我们一些源自某些东西的一致性效应。当一个具有类似可感知特征的新产品被生产出来时,我们期待它能具有类似的功能,并寻找相仿的效应。从一个与面包有着类似光泽和形状的东西中,我们期待能获得相似的营养补充。
基于邻接律和相似律的关联方式也被认为是宣传著名“白板”(洛克对新生儿心智的比喻)的始作俑者。这个被称为“关联论”(Associationism)的学说统治英美的心智学界达几个世纪之久,直至今日,它在很大程度上仍占主导地位。当“想法”被刺激-反应所取代后,关联主义就变成了行为主义。“白板”说和上述两条“一般-目的”学习法则是标准社会科学模型的心理学基础。我们不时听到些陈词滥调,说我们的成长教育如何令我们在食物与爱、财富与快乐、身高与权力等诸如此类事物之间建立“关联”。
直到最近,关联论仍过于模糊而无法检验。但由于其通常在计算机上进行模拟仿真,神经网络模型可以使想法更为精确。由教师向神经网络提交一个输入和正确的输出,而神经网络则力求在未来对该输入和输出的配对加以复制。这种学习方案是一个很好的邻接法则模型。在所分配的输入表征中,概念本身并没有自己的单位(“鹦鹉”),而是由围绕其特性(“有羽毛的”“有翅膀的”,等等)的多单位激活模式来表征。这种输入表征使相似的概念得到自动的一般化归纳,因而很好地符合了关联论的相似法则。如果心智的所有部分都能像同一种神经网络来运作,我们就能得到“白板”的程序执行了。因而联结主义提供了一个机遇。通过观察简单神经网络能做什么和不能做什么,我们就能够对持续几个世纪之久的想法关联学说进行严格的检验了。
在开始之前,我们需要做一些解释性的说明。联结主义并不是心智计算理论的替代学说,而是对该理论的一个变体,它主张,人脑信息处理的主要类型就是多元变量统计。联结主义也并不是对人脑如电脑理论的必要更正(该理论认为人脑就像具有一个高速、无差错的序列性核心处理器的商业电脑。事实上,没有人认同这种理论)。阿契利斯认为,所有形式的思考都包含了对逻辑课本中上千条规则的严谨遵循,但现实生活中没有阿契利斯。最后,联结主义者所设想的网络是不现实的脑模型,尽管他们满怀希望地贴着“神经网络”这样的标签。例如,“突触”(联结权重)可以由兴奋转到抑制,信息可以沿着“轴突”(关联)双向流动,但这在解剖学上都是不可能实现的。当面临的选择是完成任务还是反映实际脑工作时,联结主义者往往选择完成任务;这说明他们所提出的神经网络只是一种大致基于神经元比喻的人工智能形式,而并不是一种神经建模。问题在于,这种神经网络是否执行了正确的计算来反映人脑思考的工作运行呢?
原始的联结浆糊不能合理地解释日常思考的5大不凡之处。这些不凡之处最初并不显眼,在逻辑学家、语言学家和计算机科学家们将句子的含义放到显微镜下仔细研究前,甚至没人意识到它们的存在。但正是这些不凡之处为人类思考赋予了独特的准确性和力量,而且我认为它们为回答一个问题提供了重要素材。这个问题就是:心智如何工作。
第一个本领是具有个体性的概念。首先我们来看看神经网络与类似计算机表征的第一个差别。那时我们不是将一个实体符号化为一串字符的任意模式,而是将它表征为一个单位层的模式,每一层代表这个实体的一个性质。这样的一个直接问题就是,无法再区分具有同样性质的两个个体。它们是以一种相同的方式来表征的,系统无视它们是不同的两块物质这一事实。我们已经丧失了个体性:我们可以表征蔬菜或马,但却无法表征某种蔬菜或某匹马。无论系统对于一匹马获知了什么,都会合并到它对另一匹完全相同的马的认知中。没有自然的方式来表征两匹马。让马的结点激活两次没有用,因为那与两倍地确信马特征的呈现或者认为马特征呈现程度增加一倍无法区分开来。
我们很容易把级别与亚级别之间的关系,混淆为亚级别与个体之间的关系。这两种关系确实在某方面很相似。两者中,任何高级别实体的特性都是从低级别实体那里继承来的。如果动物呼吸,且马是动物,那么马呼吸;如果马有蹄子,Ed.先生是马,那么Ed.先生有蹄子。这可以诱惑建模者将一个个体视为一个非常非常具体的亚级别,运用两个实体之间的某些细微差异来区分近似的“小幽灵(后台程序)”。——一个雀斑单位对于一个个体是开启的,而对于另一个个体则是关闭的。
正如许多联结主义者所提倡的,要回溯到英国联结主义。伯克莱写道:“拿走对柔软、潮湿、红色、酸味的感觉,你就等于拿走了樱桃,因为樱桃不是与感觉性质不同的东西。要我说,樱桃是一个感觉印象的集合。”但伯克莱的建议绝对是错误的。你对于两个物体特征的认识可以是完全相同的,而你仍觉得它们是可区分的。想象一个房间里有两把完全相同的椅子。有个人进来把它们彼此调换了一下位置。这个房间与从前一样吗?还是有所不同?很显然,每个人都明白它是不同的。但你不知道两把椅子的差异——除了你可以把一个想作一号椅子,另一个想作二号椅子。我们又回到了记忆插槽的任意标签,就像令人鄙夷的数字计算机中的一样!喜剧演员斯蒂芬·赖特的一个笑话也传达了同样的含义:“在我不在的时候,有人偷了我公寓里所有的东西,然后换成了完全相同的复制品。当我与室友说这事时,他说:‘我认识你吗?’”
当然,有一条总可以用来区分个体:它们不可能在相同的时间处于相同的地点。或许心智能够给每个物体都贴上时间和地点的标签,然后不时地更新这些坐标,使它能够区分具有共同性质的个体。但即使这样,也不能反映出我们心智中区分个体的能力。假设一个无限的白色平面上除了两个完全相同的圆圈之外什么都没有。其中一个圆圈滑过来在第二个圆圈上面贴住了一会儿,然后又滑走了。我想,任何人都会把这两个圆圈看作是不同的东西,即使它们在同一时间同一地点附着在一起的那一小会儿也是如此。这说明在某一时间处于某一地点并不是我们对于“个体”的心理定义。
这并不是说,个体无法在神经网络中得到表征。很简单,只需将一些单位用于表示个体的识别身份,而独立于个体的性质特征。可以赋予每个个体它自己的单位,或者赋予每个个体一个以激活单位模式编码的等价序列号。寓意在于心智网络的设计要能够执行对个体的抽象逻辑内涵,就像计算机中标记任意标签的内存位置所起的作用。有问题的是受限于物体可观察特征的模式协关器,这个亚里士多德名言“感觉是理智的前提”的现代例证。
这个讨论只是一次逻辑练习吗?当然不是。个体的概念是我们社会推理整体知识的基本粒子。我让你看看两个现实生活中的例子,涉及那些人类交流的伟大领域,爱与正义。
同卵双胞胎的大多数特征都一样。除了外表的相似之外,他们思维相像,感觉相像,行为也相像。当然并不是完全一致,正因如此,有人可能会想把它们表征为非常狭窄的亚级别。但任何把它们表征为亚级别的生物体,都应当至少完全相同地对待同卵双胞胎。这个生物体应当将它的想法从一个传到另一个,至少在概率上或一定程度上如此——记住,这是联结主义及其在联结浆糊中贯彻的一个卖点。例如,无论双胞胎中一人的什么吸引了你——他的走路方式、谈话方式、他的外表,等等——这也会令双胞胎的另外一人吸引你。这应当将同卵双胞胎置于传说中围绕真正完美轮廓的嫉妒与背叛。事实上,什么事也没发生。同卵双胞胎中一个人的配偶对于另一个并没有感觉到罗曼蒂克式的吸引。爱将我们对另一个人的感觉锁定为那个人,而不是那种人,无论对那种的细分有多狭窄。
1988年3月10日,有人咬掉了警官斯托顿的半个耳朵。毫无疑问,是他俩中的某一人干的:要么是肖恩·布里克,一个住在加州帕洛阿尔托的21岁年轻人,要么是约纳森·布里克,他的同卵双胞胎兄弟。两人当时都在与警官扭打,其中一个咬掉了警官的半个耳朵。两人都被指控故意伤害罪、盗窃未遂罪、袭警罪和加重故意伤害罪。加重故意伤害罪,就咬耳朵行为而言,将被判终身监禁。斯托顿警官证实了双胞胎中的一个留着短发,另一个留长发,是留长发的人咬了他。不幸的是,3天后两人自首时,两人的发型都变成了相同的平头,而且两人也不说话。他们的律师辩称,两人谁也不应当因加重故意伤害罪而被判处严厉的监禁。对于兄弟俩中的每一个,都有合理的理由怀疑是不是他所为,因为有可能是另一个人所为。这项争辩很有说服力,因为我们的正义感要让我们选择做了某个行为的个体,而不是那个个体的性格特征。
我们对于个体位格的执迷并不是一个过于费解的奇癖,其进化的原因很可能是,我们所遇到的每个人,与我们所观察的任何财物大不相同;而这种不同之处在于,由于人类独特的胚胎学和个人传记式历史,人确定地容纳了大量不可复制的记忆和欲望。在第6章中,当我们反向逆推正义感和浪漫爱情的情感时,我们会看到记录个体位格的心理活动位于他们设计的核心。
人类并不是我们需要区别对待的唯一一种易混淆的个体,骗局是另一个真实世界中的例子。许多动物需要施展骗局才能保持个体的区分。一个例子是,需要辨别自己孩子的母亲,她的孩子看上去和其他的孩子并无二致,但却携带着她的基因。另一个例子是,牧群动物的捕获者,它需要追踪目标兽群中的一员,采取的就是像盯着游泳池里的标签一样的策略:如果你是目标猎获物,一旦确定就不再更换,分秒必争地直奔目标物。在肯尼亚的动物学家为了使他们的数据收集更加容易,在麻醉针麻翻了的角马角上涂了彩色的编码,但他们发现,在把被做了标记的动物放回兽群之前,无论怎样小心地使它恢复精力,它总会在一两天之后被鬣狗捕杀。一种解释是,彩色标记使鬣狗容易将那只角马与其他的角马区别开来,从而追赶它直至其力竭而成功将其捕获。最近关于斑马条纹的新观点是,它们不是为了要与条纹高草相混淆而将其作为保护色——这一直是一个可疑的解释——而是为了使斑马成为一出活生生的骗局策略,令狮子和其他捕食者很难将注意力只保持在一匹斑马上。当然,我们无从知道鬣狗或狮子是否有个体的概念;也许一个古怪的人站出来会看上去更令它们食欲大开。但这些例子说明了从类别中区分个体的计算问题,并强调了人类心智是如何轻而易举地解决了这个问题的。
关联主义的第二个问题被称为组成性问题:一个表征如何由各种部件组成,以及各个部件的含义和它们的组合方式又如何构成整个表征的含义。组成性是所有人类语言的精华特征。“The baby ate the slug”(婴儿吃了蛞蝓)的含义可以根据baby、ate、the和slug各词的含义以及它们在句中的位置而得出。整体不是部分的总和;当这些词的顺序变为“The slug ate the baby”(蛞蝓吃了婴儿)时,传达的意思就不一样了。因为你之前从没听说过这两句话,你必须通过在这串词上应用一套运算法则(整合句法的规则)才能解释整句的含义。每句话最终的含义是你在匆忙中组合在一起时的全新想法。你已经有了“婴儿”、“蛞蝓”和“吃”的概念,并能够为它们在心理公告板上安排相应的符号,而这种安排是根据能够读取的“小幽灵(后台程序)”所注册的方案而进行的。这样,对整句的理解就成为你从未有过的全新想法。
记者们说:“狗咬人不是新闻,人咬狗才是新闻。”心理表征的组成性使得我们能够理解新闻。我们可以具有疯狂的、奇妙的新想法,无论这想法多么荒诞不经。奶牛跳过月球;格林奇偷走了圣诞节;宇宙源自一次大爆炸;外星生物降临哈佛;迈克尔·杰克逊娶了猫王的女儿。感谢数学中的组合理论,我们永远也不会缺少新闻。还有百万万亿个想法足够我们去想呢!
你可能觉得,将组成性问题放到神经网络中是件很容易的事情:只要开启“婴儿”“吃”“蛞蝓”的单位就行了。但如果那就是你的心智所做的,你将会感到一头雾水:究竟是婴儿吃了蛞蝓,蛞蝓吃了婴儿,还是婴儿和蛞蝓吃了。概念必须被分配给角色(逻辑学家们称之为“参数”):谁是吃东西的,谁是被吃的。
那么,也许有人可以给每个概念和角色的组合分配一个结点。那就有了一个“婴儿吃蛞蝓”结点和一个“蛞蝓吃婴儿”结点。有人可能会想,既然大脑包含了海量的神经元,为什么不那么做呢?不这么做的原因是,海量和真正海量是两个概念。组合的数目会随着可允许的大小呈指数增长,这种组合数量的爆炸式增长远超过了我们对脑容量最大胆的猜想。据传说,宰相西萨·班·达依尔因其发明了国际象棋向印度舍罕王索要微薄的奖赏。他请赏的只是将一粒小麦放在国际象棋盘的第一个方格里,两粒小麦放在第二个方格里,四粒放在第三个,以此类推。还远没到第64个方格时,国王就发现,他已经无意中将他整个王国所有的小麦都送出去了。奖赏总计达四万亿蒲式耳 ,相当于全世界2 000年的小麦总产量。与之类似,思维的组合数目会远远超过脑中神经元的数量。如果每句含义都要有它自己的神经元,那么一亿兆个句子含义怎么压缩也塞不到拥有1 000亿个神经元的大脑里去。
即使能够容得下,一个复杂思维也一定不是一个神经元对一个思维那样整体储存的。原因在于,我们的思维是彼此相关的方式。假设每个思维都有它自己的单位,就会有不同的单位分别对应于婴儿吃蛞蝓,蛞蝓吃婴儿,小鸡吃蛞蝓,小鸡吃婴儿,蛞蝓吃小鸡,婴儿看见蛞蝓,蛞蝓看见婴儿,小鸡看见蛞蝓,等等。单位必须被分配给所有这些以及更多的思维;任何能想到“婴儿看到小鸡”的人也能够想到“小鸡看到婴儿”。但这种思维对应单位的储存有些可疑之处,它的匹配方式纯粹出于巧合。我们不断地有婴儿吃、蛞蝓吃、婴儿看、蛞蝓看,等等。所有的思维完美地对应到一个巨大矩阵的各行、列、阶、超行、超列以及超阶。但如果思维是一个独立单位的大集合,而这些单位代表的同样也是一大堆彼此割裂、毫无关系的仿真陈述,那么这种惊人的模式就令人难以理解了。当自然交给我们可以合适地放进一个长方形分类储物架的物体时,它是在告诉我们,这些物体一定是由那些对应到各行各列的更小部件所组成的。这就是元素周期表引导了人们对原子结构的理解的原因。出于类似的原因,我们可以得出结论,我们思维的经纬线就是组成它们的概念。思维来自概念的组装,概念不是作为整体而储存的。
对于联结浆糊理论而言,组合性有些出乎意料的复杂。所有表面明显的把戏都成为不适当的半吊子测量标准。假定我们为每个单位分配一个概念和角色的组合,也许一个单位代表婴儿-吃,另一个代表蛞蝓-被吃;或者可能一个代表婴儿-做-一些事,另一个代表蛞蝓-有些东西-被-(做)。这样就大量减少了组合的数量——但代价是增加了“谁对谁做了什么”的疑惑。“卷毛狗吃蛞蝓时,婴儿在吃鸡肉”的思维会与“卷毛狗吃小鸡时,婴儿在吃蛞蝓”的思维混淆。问题在于,婴儿-吃的单位并没说吃什么,蛞蝓-被吃的单位也没说谁吃了它。
向正确方向迈出的一步是,在硬件中构建概念(婴儿、蛞蝓等)与它们扮演角色(施动者、受动者等)的区分。假设我们确定好各自分开的单位组,一组表示施动者的角色,一组表示行为,一组表示受动者。要表征一个命题,每组单位都要装满正在扮演角色的概念模式,这些概念是从另一个分开的概念储存内存那里调入的。如果我们将每一个结点都彼此相联结,我们就有了一个命题的自动协关器,它能够具备少量的组合思维能力。我们可以储存“婴儿吃蛞蝓”,当任意两个部分作为问题呈现时(比方说,“婴儿”和“蛞蝓”,表示问题“婴儿和蛞蝓的关系是什么”),网络会通过开启第三个部分的单位而完成其模式(在此例中,“吃”。见图2-12)。
图2-12 施动者、行动与受动者
是这样的吗?可惜不是。我们来看看这些思维:
婴儿 等同于 婴儿
婴儿 不同于 蛞蝓
蛞蝓 不同于 婴儿
蛞蝓 等同于 毛虫
如果一组联结权重允许第一槽的“婴儿”和中间槽的“等同于”开启第三槽的“婴儿”;同时允许“婴儿”和“不同于”开启“蛞蝓”;同时还允许“蛞蝓”和“不同于”开启“婴儿”,那么这组联结权重绝不会再允许“蛞蝓”和“等同于”开启“蛞蝓”。这是一个改头换面的抑或问题。如果“婴儿-于-婴儿”和“婴儿-等同于”的联结足够强大的话,它们会开启“婴儿”以回应“婴儿等同于_______”(这是好的),但它们也会开启“婴儿”以回应“婴儿不同于_______”(这不好)和“蛞蝓等同于_______”(也不好)。无论你怎样调整权重,你也无法找到能够满足所有4句话的联结组。既然任何人都能毫无疑问地理解这4句话,那么人类心智一定表征了比一组“概念-到-概念”或“概念-到-角色”关联更为复杂的命题。心智需要一个对命题本身的表征。在本例中,模型需要一个额外单位层——更确切地讲,一个专供表征整个命题,而与概念及其角色相分离的层级。图2-13以简化的形式展示了杰弗里·辛顿修订的一个能处理这些句子的模型。
图2-13 简化的模型
储存“命题”单位的记忆是以任意模式开启的,有点像标志完整思维的序列数字。它就像一座将每个命题中的概念都容纳到其相应槽中的超级架构。请注意,这种网络架构是在多么严密地执行着标准的、像语言一样的心语啊!还有其他一些组成性网络的提议,不像这样具有明显的模拟性,但所有的提议都必须有一些专门设计的部分来将概念与其角色区分开来,并将每个概念与其各自角色适当地结合起来。还是需要偷偷借来诸如谓项、中项和命题等逻辑要素,以及处理它们的计算工具,才能得到一个模型,来做类似心智一样的事情;仅靠关联这些东西本身是不够的。
另一个你或许从没意识到的心理禀赋被称为量化或变量约束。它源自个体性与组成性的结合。我们的组成性思维往往是关于个体的,而且个体如何与思维的各个部分相联系各不相同。“某个婴儿吃某个蛞蝓”的想法与“某个婴儿总是吃一般蛞蝓”的想法是不同的,与一般意义上的“婴儿吃蛞蝓”的想法也不一样。有一种笑话,其幽默之处需要听者理解那种不同之处。“Every forty-five seconds someone in the United States sustains a head injury(每45秒钟美国就有人头部受到伤害。)”“我的天,可怜的家伙!”(someone可理解为“有人”,也可理解为“某人”)。当我们听到“Hildegard wants to marry a man with big muscles”时,我们不知道究竟她是用她的男性般的气概发出召唤呢,还是她只是满怀希冀地在体育馆里游荡。亚伯拉罕·林肯说:“你可以在某些时候愚弄所有人;你甚至可能永远愚弄某些人;但你不可能永远愚弄所有人。”(You may fool all the people some of the time; you can even fool some of the people all the time; but you can't fool all of the people all the time.)如果没有计算量化的能力,我们就不可能理解他说的这句话的含义。
在这些例子中,我们有几个句子,或者对一个语义含混的句子有几种理解方式,其中相同的概念扮演着相同的角色,但整体意思则完全不同。仅仅将概念与它们的角色连在一起是不够的。逻辑学家用变量和限量词来区分它们。一个变量是指像 x 或 y 一样保持位置的符号,它代表着不同命题中或一个命题不同部分中的同一个实体。一个限量词是一个符号,它可以表达“存在着某个 x ,它……”,且“对于所有的 x ,……是真实的”。这样,一个想法可以体现在一个命题中,构成这个命题的符号表示了概念、角色、限量词和变量,所有的都予以精确地排序并加括号分类。例如,比较“每45秒钟[就有一个 X (受伤)]”和“有一个 X [每45秒钟(就会受伤)]”。我们的心语肯定也拥有可以做类似事情的工具。但目前为止,我们尚没有线索了解在一个关联网络中,这是如何做到的。
一个命题不仅可以是关于一个个体的,它自身必须被视为一种个体,这就引发了另一个问题。联结浆糊的力量来自单个一组单位中添加的模式。不幸的是,这可能产生怪异的四不像或是建一个两头都落空的网络。对于联结浆糊,这是无处不在的怪物的一部分,被称为干扰或串扰。
这有两个例子。心理学家尼尔·科罕(Neal Cohen)和迈克尔·迈克劳斯基(Michael McCloskey)训练一个网络学习两个数的加法。他们起初训练它把“1”加到其他数上:当输入“1”和“3”时,网络学会输出“4”,诸如此类。然后他们训练它把“2”加到所有其他数上。不幸的是,这个加“2”的问题将联结权重提升到加“2”为最优的值,因为网络没有富余的硬件来设定如何加“1”的知识,它竟将如何加“1”忘掉了!这种效应被称为“灾难性遗忘”,因为它不像日常生活的轻度遗忘。另一个例子是麦克莱兰德和他的同事阿兰·川本(Alan Kawamoto)设计的网络,将含义分配给语义含混的句子。例如,“A bat broke the window”的意思可以是一根棒球棒(bat)被扔到窗户上,也可以是一只长翅膀的哺乳动物(蝙蝠:bat)撞到窗户上。而下面这个解释则是人类得不出来的:一个长翅膀的哺乳动物用一根棒球棒打碎了窗户!
正如任何其他工具一样,令联结浆糊对某些事有效的特点,也令它对另一些事无效。网络概括的能力来自它密集的交互联结性和它输入的叠加重合。但如果你是一个单位,有几千个其他单位在你耳边聒噪,还被一浪接一浪的输入所蹂躏,这并不总是一件乐事。经常是不同的信息组块被分开打包和存储,而不是随意混在一起。一种这样做的方式是给每一个命题分配它自己的存储槽和地址——这再次显示了并不是计算机设计的所有方面都可以被草率归结为硅的好奇心。毕竟设计计算机不是来用作室内加热器,设计它是为了以一种对人类使用者有意义的方式来处理信息。
心理学家戴维·舍莉(David Sherry)和丹·夏克特(Dan Schacter)将这种推理推得更远。他们注意到,对于内存记忆系统不同的工程设计要求往往是目标交叉的。他们辩称,作为回应,自然选择给了有机体专门化的记忆系统。每个系统都有一个优化的计算架构专门适合于动物心智必须完成的一个任务的要求。例如,贮藏种子以备收成欠佳日子里食用的鸟类进化出了一种对于隐藏地点的大容量记忆(以星鸦为例,它可记忆10 000个地方)。雄鸟歌唱吸引雌鸟,或者恫吓其他雄鸟的鸟类进化出对于歌声的大容量记忆(以夜莺为例,它可记忆200种歌声)。对于储藏地和歌声的记忆位于不同的脑部结构,并且有着不同的神经元联结模式。我们人类对于记忆系统同时有着两种非常不同的要求。我们要记住谁在什么时间、什么地点、为什么对谁做了什么这种独特场景,这需要在每个场景都标记上时间、日期和一个序列号。但我们还必须推断出关于人们如何工作和世界如何运转的一般性知识。舍莉和夏克特提出的观点是:自然对每种要求分别赋予了我们一种记忆系统:一种是“情景式”或自传体式记忆,另一种是“语义式”或一般性知识的记忆,心理学家恩德尔·托尔文(Endel Tulving)最早提出了这种区分。
思维成倍增加到真正的天文数字的把戏不是将概念插槽分配给三四个角色,而是一种被称为递归的心智能力。为每个角色安排固定一组单位是不够的。我们人类可以将一整个命题放到一个更大的命题中,赋予它一个角色。然后我们可以将这个更大的命题嵌套到一个还要大的命题中,这样创造一种命题中有命题的层级式树形结构。不仅这个婴儿吃蛞蝓,而且父亲看见这个婴儿吃蛞蝓,我想知道父亲是否看见这个婴儿吃蛞蝓,父亲知道我想知道他是否看见这个婴儿吃蛞蝓,以及我能猜到父亲知道我想知道他是否看见这个婴儿吃蛞蝓,等等。正如给一个数字加“1”的能力是一种产生一组无限多的数的能力,将一个命题嵌套到另一个命题中的能力,也是一种增加了无限多思维的能力。
为了在图2-13所展示的网络中完成命题之中嵌套命题,可以在图的顶部增加一个新联结层,将整个命题的储存单位联结到一个更大命题的角色插槽中;这个角色可以是像“观察的事件”一样。如果我们继续添加足够的层级,我们就可以通过在联结浆糊中侵蚀全部树形结构而容纳整个成倍增加的嵌套式命题。但这种方法太笨拙,而且会引起疑惑。对于每一种递归式结构,都有一种不同的物理联结网络:一个网络供思考一个命题的一个人;另一个网络是供思考一个关于一个思考一个命题的人的命题的一个人,第三个网络是供一个人与另一个人进行关于某个人的命题的交流,等等。
在计算机科学和心理语言学中,采用了一种更为强大和灵活的机制。每个简单结构(一个人、一种行为、一个命题,等等)都在长期记忆中得到一次表征,处理器的注意在一个结构到另一个结构之间不断穿梭转移,将转移的路线记录在短期记忆中,从而将命题编织在一起。这种被称为递归式转换网络的动态处理器,特别适合于句子理解,我们是一次听或者读一个单词,而不是一次吐纳一个整句。我们似乎也是在一点一点咀嚼深思我们的复杂思维,而不是囫囵咽下或喷出,这说明,心智配备的递归式命题计算研究机不仅仅是为了句子,而且是为了思维。心理学家迈克尔·乔丹(Michael Jordan)和杰夫·艾尔曼(Jeff Elman)构建了一些网络,这些网络的输出单位发出的联结回送到一组短期记忆单位,触发了新一轮激活流。这种回送设计使我们隐约看到,迭代信息处理在神经网络中是如何执行的,但它还不足以解释或汇编结构性命题。最近,有研究者尝试将一个回送式网络与一个命题式网络组合在一起,从联结浆糊的碎片中完成一种递归式转换网络。这些尝试说明,除非神经网络中特别装配了一个递归式处理器,否则将无法处理我们的递归式思维。
心智还具有的另一项认知本领很难从联结浆糊中提取出来,因而也很难用关联论来解释。神经网络轻易地解决了模糊逻辑的问题,即任何东西都是在某些程度上的某种东西。确切地说,许多常识性的概念在其边界处都很模糊,并没有清晰的定义。哲学家路德维希·维特格斯坦举了“a game”(游戏、比赛)的例子,其典型例子彼此并没什么共同之处(包括拼图、速度轮滑、冰壶、角色扮演游戏、斗鸡,等等)。我在前面也曾给出了另外两个例子,“单身汉”和“蔬菜”。模糊类别的成员缺少一个单一确定的特点;它们的许多特点都有所重叠,很像一个家庭中的成员或是绳子的每一股,每一股都没有延续到整个绳子的长度。漫画《布卢姆县》中,企鹅奥普斯患暂时性失忆,当被告知它是一只鸟时,它不同意。它说,鸟的身材苗条,符合空气动力学,而它不是;鸟能飞,它不能;鸟能歌唱,它唱的《昨天》令听众哄堂大笑。奥普斯怀疑它实际上是驼鹿布尔温克。所以即使是“鸟”这样的概念似乎也没有围绕必要和充分条件来组织,而是根据原型成员来界定的。如果你在字典里查“鸟”,例图显示的不是一只企鹅,而是小鸟乔伊——一只典型的麻雀。
认知心理学的实验显示,人们对于鸟、其他动物、蔬菜和工具都有刻板印象。人们对一种刻板印象达成共识,把它反映到一个类别中的所有成员上,比较对于那些不符规范的成员更为迅速地识别出这种刻板印象,甚至当见到的实际只是相似的例子时也宣称其为那种刻板印象。这种反应取决于一个成员与其类别中其他成员之间相同特征的数量:像鸟的特征越多,就越属于鸟类。从一个类别中呈现例子的自动协关器其实在做同样的事情,因为它是在计算特征之间的相关性。所以有理由相信,人的一部分记忆是由一些像自动协关器一样的东西所联结的。
但心智一定还有比这更多的东西。人们并不总是模糊的。我们笑话奥普斯是因为我们的一部分知道它确实是一只鸟。我们或许同意奶奶的原型是这样的——好心的、灰白头发的、分发蓝莓松饼或鸡汤的七八十岁的老人(依我们所谈论的各人的刻板印象而定)——但同时我们完全明白蒂娜·特纳和伊丽莎白·泰勒也是奶奶(实际上泰勒还是个犹太奶奶)。说到单身汉,许多人——诸如移民官员、太平绅士,还有保健官僚们——因其对于谁属于某个类别毫不含糊而臭名昭著;众所周知,很多事情因一页纸而有天壤之别。毫不含糊的思维例子随处可见。法官可以根据技术理由而释放一个显然有罪的嫌疑人。酒吧服务员拒绝向一个能够对自己行为负责的人提供啤酒,因其尚未过21岁生日。我们开玩笑说,你不能有点儿怀孕或是有点儿结婚;加拿大的一个调查报告称,已婚女性每周做爱1.57次后,卡通画家泰瑞·莫舍画了一个女人坐在床上,挨着她昏睡的丈夫嘟囔:“唉,这算0.57次。”
事实上,模糊版和清晰版的相同类别可以相安无事地共处于一个脑中。心理学家莎朗·阿姆斯特朗(Sharon Armstrong)、亨利·格雷特曼(Henry Gleitman)和丽拉·格雷特曼(Lila Gleitman)在给大学生做模糊类别的标准测试时,问他们关于像“奇数”和“女性”这样有明确定义的类别。被试们愉快地接受了一些愚蠢的陈述,比如,13是比23更好的一个奇数的例子,以及母亲是比戏剧女演员更好的一个女性的例子。过了一会儿,被试们却又断言,一个数要么是奇数要么是偶数,一个人要么是男人要么是女人,没有中间地带。
人们用两种方式来思维。世界上的东西总是倾向于扎堆儿,人们因此不假思索地吸取了各个特征的相关性,从而形成了模糊的刻板印象。但人们也能创造系统规则——直觉理论——根据适用的规则来界定类别,并依据规则一视同仁地对待类别中的所有成员。所有的文化都有正式的亲缘规则系统,这种规则系统非常精确,甚至往往能够证明其中的定理。我们自己的亲缘系统为我们给出了清晰版本的“奶奶”或“姥姥”:父母一方的母亲,让松饼见鬼去吧。法律、算术、大众科学以及社会惯例(用其生命阶段的仪式清晰地将成人与孩童、丈夫与单身汉区分开来)是其他的一些规则系统,世界各地的人们用这些规则系统做出评断。一门语言中的语法是另一种规则系统。
规则系统使我们从单纯的相似性中升华出来,根据解释来得出结论。辛顿、鲁梅尔哈特和麦克兰德写道:“人们善于归纳新获得的知识。例如,如果你得知黑猩猩喜欢吃洋葱,很可能会提高你对大猩猩喜欢吃洋葱的预测的概率。在一个使用分布式表征的网络中,这种概括归纳是自动的。”他们的夸口其实是休谟言论在20世纪的回响,休谟曾说,人们看到色彩和外形都像面包的一个东西,会指望能从中得到类似的营养。但在任何一个人熟悉的领域,这个假设都会土崩瓦解。当然,爱吃洋葱的大猩猩只是一个刻意的例子,但有趣的是,即使是这么一个简单的例子也低估了我们。我知道一些动物学知识,不过对大猩猩不甚了解,但我绝不会提高我对大猩猩喜欢吃洋葱的预测概率。动物能够被交叉分类。它们可以根据家谱和相似性分作不同的类群,如猩猩类,但也可以根据获取食物的专有特定方式分作不同的种群,如杂食动物、食草动物和肉食动物。知道这个原则令我做出如下推理:黑猩猩是杂食动物,它们吃洋葱不奇怪;毕竟我们也是杂食动物,我们也吃洋葱。但大猩猩是食草动物,它们整天大嚼野生芹菜、蓟和其他植物。食草动物往往对它们赖以为食的植物种类十分挑剔,因为它们的消化系统最适合于化解某些种类植物的毒性而不是其他植物的毒性。一个极端的例子是考拉,它们只吃桉树叶子。所以如果大猩猩不吃辛辣的洋葱,我不会感到奇怪。根据我所想到的不同解释系统,黑猩猩和大猩猩可以同属于非常相似的种类,也可以像人和奶牛一样差之千里。
在关联论及其联结浆糊的应用中,物体的表征方式(即作为一组特征)自动地委托系统以一种特定的方式来进行概括归纳(除非用专门提供的相反例子来训练它不做这样的归纳)。我所推荐的替代方案是,人们可以在心理上对各种物体予以符号化,而那些符号可以指向我们脑袋里配备的多个规则系统。在人工智能中,这项技术被称为基于解释的归纳;关联论者的设计则被称为基于相似性的归纳。我们的多规则系统包含知识的特点包括组成性、量化性、递归性命题,以及汇集这些命题而形成的关于特定范畴经历的模块或直觉理论,这些范畴包括亲缘关系、直觉科学、直觉心理、数字、语言和法律。第5章我们将探讨其中的一些范畴。
清晰的类别和多个规则系统有什么好处呢?在这个社会性世界中,当讨价还价的双方都指着一个边界模糊类别,一个说某东西在里面,另一个说在外面,这时清晰类别和多个规则系统就可以对此做出评判。人生阶段仪式、法定年龄、证书、许可证以及其他法律文件划出了各方心理上都能明确的清楚界线,这些界线令所有人都知道其他任何人所占据的位置。类似地,全或无规则反对的是步步为营的战术,在这种战术下,人们尽量利用模糊的类别,为自身的利益一次又一次地发起边界争执。
规则和抽象类别也有助于处理自然界的事务。它们避开相似性,使我们能够深入,探索出事物运行的隐含法则。因为它们在某种意义上是数字性的,它们使得表征更为稳定和精确。如果你从一盘模拟磁带翻录一连串模拟复制品,那么其质量会随着被复制次数的增加而逐渐下降。但如果你制作一连串数字复制品,最后一个与第一个的质量会一样好。与之类似,在推理链中清晰的符号表征,将符号逐一不落地复制到连续的思维中,形成了逻辑学家们所称的一种诡辩法。
所有的乌鸦都是鸦。
所有的鸦都是鸟。
所有的鸟都是动物。
所有的动物都需要氧气。
无论经验多么贫乏,诡辩法都使思想者充满信心地得出结论。例如,一个思想者得出结论——乌鸦需要氧气,即使没有人会真这么做来看看会发生什么。即使他从来没见证过任何一个剥夺动物氧气的实验,而只是听到一位可信赖专家的陈述,这个思想者仍会得出这个结论。但如果这个推导中的每一步都是模糊的或者概率性的,或者胡乱堆砌了前一步类别成员们的特征,那么稀泥就越和越乱了。上面这个陈述会像第 N 代的私贩磁带一样充满噪声、杂乱无章,或是像糟糕的传话游戏中的最后一声低语那样难以识别。各个文化中的人们都在进行长链式的推理,无法直接观察这些推理所基于的联结是否真实。哲学家们常常指出,科学就是因为这种能力才成为可能。
就像许多围绕心智的问题一样,对关联论的争论往往被当作是先天禀赋与后天学习之间的争论。这几乎不可能想清楚。当然,在关联论者的建模中,学习扮演着极其重要的角色。建模者往往在被我前面提到的那些问题所难住,不得不重新考量时,就会利用隐含层网络的能力,学习一组输入和输出,然后将它们概括运用到新的、类似的情况。经过对通用隐含层网络的辛苦培训,人们有时可以令它做到近似正确的事。但英雄式的灌输式培训自身并不能成为联结浆糊的“救世主”。这不是因为网络天生结构太少和外部环境输入太多,而是因为原始联结浆糊的动力不足,所以网络的构建往往必须用最差的组合:太多的天生结构结合太多的外部环境输入。
例如,辛顿修改了一个三层网络来计算家庭关系。他本意是想用来展示网络是如何工作的,但其他的关联论者都把它当作是一个真实的心理学理论。输入层有为名字而设的单位,也有为关系而设的单位,比如“科林”和“母亲”。输出层有为与之相关人的名字而设的单位,如“维多利亚”。既然单位和联结都是网络的天生结构,就只有联结权重是习得的了,如果我们确实认为网络回应脑中的一个天生模块,只是为了对谁以一定的方式与一个有名字的人有关系这类问题分别作答的话。这不是一个对一般性亲缘关系进行推理的系统,因为知识被涂抹到了问题层和答案层之间的联结权重上,而不是被储存在能够以不同提取方式获得的数据库中。所以,一旦问题略微变动一下,比如问两个人是什么关系,或者问一个人家庭成员的姓名和关系时,知识就没用了。在这个意义上,模型就有了太多的天生结构,成了为某个特定测验量身定制的了。
在培训了其模型在一个小规模自制家庭中的关系后,辛顿请大家注意,这个模型能概括归纳出新的几对亲属关系。但仔细研究他的研究结果后,我们发现,这个网络需要对可能的104对中的100对加以学习,才能够概括归纳出剩余的4对。而培训过程中这100对的每一对都需要被注入网络达1 500次之多(培训课程共计150 000次)!很显然,孩子们学习家庭亲属关系的方式肯定与此大相径庭。这个数字对于关联论者的网络来说比较普通,因为它们并不用规则的方式来获得解决方案,而是需要将绝大多数例子生敲硬塞进网络,并只在例子之间进行插补。每种大体不同的例子都必须列入培训的内容,否则网络就会胡乱插补,就像统计学家们讲述的猎鸭故事一样:一人射得高了一米,第二个射得低了一米,第三个大声喊:“我射中它了!”
为什么要把联结浆糊放到强光下这么审视呢?当然不是因为我认为神经网络建模不重要——恰恰相反!若没有它,我对于心智如何运作的整个理论体系将像空中楼阁一样摇摇欲坠。也不是因为我认为这种网络建模只是将构建“小幽灵(后台程序)”和数据结构的工作从神经硬件工作中外包了出去。许多关联主义者模型为心智运算的最简单步骤所能取得的成就提供了意外的洞见。但我确实认为关联主义论调过于泛滥了。因为网络被宣传为柔性的、平行的、类推的、生物性的以及连续的,所以它们得到了讨喜的内涵和广泛的拥趸。但神经网络并不创造奇迹,它们不过是在执行一些逻辑和统计运算。选择输入表征、网络数量、每个网络的连线方式,以及数据路径和联结这些路径的控制结构,比起联结浆糊组件的通用能量来说,神经网络更多地解释了怎样令一个系统变得智慧。
但我的主要意图不是为了证明某种模型不行,而是为了展示心智能够做什么。本章的目的是给您一个粗略的认识,我们的心智是由什么做成的。思维与思考不再是“小幽灵(后台程序)”般的谜团,而是可以研究的物理过程,在解释思维与思考时,不同理论的优点、缺点可以被检验和辩论。我觉得,这尤其说明了古老的关联学说的缺陷,因为它们昭示了我们日常思考的精确性、微妙性、复杂性和开放性。人类思维的计算能力有着真实的后果。它被很好地用于我们对于爱、正义、创造性、文学、音乐、亲缘关系、法律、科学以及其他一些活动的能力,这些我们在后面几章将要继续探讨。但在这之前,我们还必须回到在本章开篇时提到的另一个问题。