辛顿与卡帕锡对大语言模型之智能表现的解释,都落在其不同寻常的规模上 (副本众多、参数巨多)。我们还可以在这两位的解释之上,进一步展开对大语言模型之智能的探究。
首先要提出的是,大语言模型强大之处除了“大”外,还在于“语言”。
人的“世界”,经由语言这个构成性媒介 (constitutive me-dium) 而形成,用精神分析学家雅克·拉康的术语来说,它是一个“符号性秩序” (symbolic order) 。人无法同前语言的秩序 (拉康笔下的“真实秩序” ) 产生
有意义
的互动。
当大语言模型深度学习了人类已生产出的几乎所有文本后,那么,它就对人的“世界”(而非“真实秩序” ) 具有了几近整体性的认知——这便使得人类眼中的“通用”智能成为可能。尽管目前大语言模型因没有感知器官而不具备“具身认知” (embodied cognition),但这并不影响它对“世界”的符号性捕捉。诚如 OpenAI 的首席科学家伊利亚·苏茨科弗所言,
它知道紫色更接近蓝色而不是红色,它知道橙色比紫色更接近红色。它知道仅仅通过文本可知道所有这些事。
大语言模型不需要亲“眼”看见过红色、蓝色或紫色,便能恰如其分地谈论它们。它仅仅通过对“符号性秩序”的深度学习,就能够对人类所处身其内的这个“世界”了如指掌。费迪南·索绪尔的结构语言学研究已然揭示出,作为生活在语言中的“说话的存在” (speaking beings ),我们无法抵达“是”(譬如,什么“是”蓝色)。这就意味着,我们必须放弃关于“是”的形而上学聚焦,转而聚焦一个符号性秩序中“是”与“是”之间的差异 (亦即符号之间的差异)。 语言,是一个关于差异的系统 。
同辛顿、本吉奥共同获得2018年图灵奖的杨立昆,并没有签署暂停训练 GPT公开信——他认为人类无须担心大语言模型。杨立昆的这个判断,来自他对语言的工具主义 表征主义理解。杨立昆认肯语言以字词串起,故此是离散的;离散的字词 (“标记” ) 必须彼此差异。但在他看来,字词具有差异性,不是因为它们构成了作为差异系统的符号性秩序,而是因为语言是沟通媒介——要让人们能在有噪声的通道中进行沟通,符号必须是离散的,这样便使人可以纠正错误、消除噪声。杨立昆认为思考不受限于语言,相反,“语言是对思想的一种苍白的、近似的、离散化的、呆傻的表征”。
显然,作为计算机科学家的杨立昆,没有经历过肇始于索绪尔的“语言学转向” (the linguistic turn) 的思想洗礼,或者对该转向不认同。思考——在人的“世界”中展开的有效的思考——只能通过语言来进行;思想——在人的“世界”中能够传播的有效的思想——只可能采取语言性的形态。 “佛家思想”亦只能通过经文 (与注经式阐释、研究) 得到表达,而无法通过“拈花一笑”
进行传播。语言看似是对思想的表征,实则是思想的织料 (fabric ),是思想得以成形的矩阵(matrix) 。离开语言的前提性存在,思考不再可能 (即便有的话,那也根本无从得知,自己也无法理解)。
在工具主义 表征主义视域中,语言仅仅只是一个媒介——“事物” (things) 本身独立于语言而存在。然而,语言绝不只是杨立昆所说的人与人之间沟通的媒介,更是“世界”得以生成的那个 构成性媒介 ——没有语言,各种“实体” (en-tities) 会继续存在,但我们却不再有一个“世界” 。语言使各种前语言的“存在”,变成一个秩序 (“符号性秩序” ),一个人类可以理解并居身其中的“世界”。
语言把前语言的“存在” (亦即存在于“世界”之外),符号化为各种“是”。和“存在”不同,“是”涉及指号化(signification),涉及“能指” (signifier) 与“所指” (signified)间的一种专断的对应。
“红色”,就是一个能指——大语言模型无法“看见”它所指向的内容,但完全不影响其在“世界”中
有效
地“说出”它 (在沟通中有效)。大语言模型,同前语言的“存在”无涉,同拉康所说的“真实秩序”无涉。
以伊曼纽尔·康德为代表的“认识论转向”,被以索绪尔为代表的“语言学转向”革命性地推进,正是因为人们不但无法企及“物自体”(故此必须放弃研究“是”的形而上学),并且关于他们对“现象”的体验 (如眼中的红色),也只能通过语言 (作为能指的“红色” ) 进行有效沟通。完全不具备具身认知的大语言模型 (无法通过感官来进行体验),却依然能够呈现出关于这个“世界”的通用性智能,那是因为,它不断在进行深度学习的,不是“世界”内的某一种专门系统,而是那个符号性地编织出“世界”的系统——一个处在不断变化中的差异系统。它就是语言。
大语言模型强大之处除了“大”与“语言”外,还在于它是深度神经网络模型。
在其名著《思考:快与慢》中,认知心理学家丹尼尔·卡尼曼将人类的思维归纳为两大思考模式:“系统1自动且快速运行,几乎不需要或根本不需要努力,也没有主动控制感。系统2把注意力分配给必须要它参与并付出努力的脑力活动,包括复杂的计算。”
做出“快思考”的系统1,其实是经由生物性演化形成的神经网络运算系统。你看到蛇就会害怕,那是你的神经系统快速把输入信号 (感知器官接收到的“蛇形信息” ) 转化为输出 (害怕的主体性体验)。而演化,就承担了神经网络的预训练。人的神经网络系统实际上就是一个预训练好的计算模型,外界信息输入经过它的不透明计算转化成输出——所谓“直觉”,便是神经网络计算的输出。
“快思考”是神经系统的自动计算,是快速的、自发的反应,并不需要意识的参与。然而,人们在处理大量且复杂的语言信息时,则需要激活“慢思考”的系统2。用海量文本来进行神经网络训练的大语言模型,实际上等于是把人的有意识展开的慢思考,全部变成了前意识的快思考。 ChatGPT 对“提示” (prompt) 的回应速度能够如此快,那是因为,它实际上相当于人的“直觉”反应——ChatGPT 那“好到吓人”的智能,便恰恰来自它对“政治学与物理学存在何种关系”这样的问题,能够做出类似“直觉”般的快思考。要知道,面对这样的问题人类只能展开慢思考——并且绝大多数人耗费脑力用慢思考给出的回答,其质量仍远远弱于 ChatGPT 快速作出的回答。
前文已提及,ChatGPT并非不会出错,然而它出错的方式实际上相当特殊——它会一本正经地胡说八道。它会有这种独特表现,恰恰是因为它说话不过“脑”(不涉及系统2的慢思考)。卡尼曼所揭示的并令他荣获诺贝尔经济学奖的诸种“认知偏误”(如损失厌恶、锚定效应、可得性捷思法等),其实亦是同一类现象——它们皆系不过“脑”直接跳出来的预训练的深度神经网络输出。人会有各种认知偏误,一如大语言模型会一本正经地胡说八道。
同样值得注意的是,对于同一个“提示”, ChatGPT每次生成的内容都会有一点变化。它会有这种表现,那是因为它处理的是概率分布。人的“直觉”、快思考 (深度神经网络计算),也是以同样方式进行输出。足球场上罚点球时,守门员扑向哪个方向,实际上是不过“脑”的,而这种经过大量训练后对信号直接的反应,总是一个概率性的输出。看到蛇状物怎样反应,也是一个概率性输出——可以通过训练改变输出(看到蛇并不拔腿就走) 。 ChatGPT 在推理上表现不佳,那也是因为它采取的是神经网络输出的快思考模式,而非深思熟虑 (deliberate) 的慢思考模式。可以说,ChatGPT 完全不“理解”它的输出内容,它处理的只是概率分布。
经由上述分析,我们看到:大语言模型所展示出来的近乎通用的“好到吓人”的智能,并不意味着它 (快要) 具有意识。
它的智能,恰恰是前意识的
(如人前意识地见蛇就想跑)。人的意识,涉及主体性体验的语言性描述——看到蛇不仅会快速生出某种反应 (前意识的“直觉” ),还能事后把该反应表述为“害怕” (意识的“体验” )。法国认知神经科学家斯坦尼斯拉·狄昂提出,人的意识的三大特征是:“慢、理由化的、符号性的”。意识“规划出关于世界的诸种符号性的表征与明晰理论,我们能够通过语言来同他人进行分享”。
意识的运思或者说计算,总是会调用关于“世界”(符号性秩序) 的背景框架,以及各种符号性的“因果模型”(譬如,地震可以被理由化为“土地爷”发怒而非地壳板块运动),故此对于前意识的直觉而言是极其慢的。
大语言模型的智能输出 (一大段复杂、精细的表述),并不是意识的,而恰恰像任何具有神经系统的脊椎动物所作出的那种“直觉”反应那样,对接收到的外界刺激 (“提示” )做出深度神经网络的计算反馈。
大语言模型,并不在语义学层面上“理解”语言,而只是在统计学层面上计算字词 (“标记” ) 的概率——它能够快速输出语法正确并且高质量的文本,但完全不“理解”任何一个句子或字词。就其发展路径而言,大语言模型即便发展出了堪称“通用”的智能,却很难成为拥有意识的“强人工智能”——其智能表现之所以“好到吓人”,是因为它是
大 语言 神经网络
模型。
面对媒体与不少人工智能研究领军人物共同描绘的“机器末世”图景,我们暂时可以划去那种拥有意识的“强人工智能”对人类发动灭世性打击的画面。按照它的当下发展路径,大语言模型并不会产生意识,尽管其智能在有意识的人类 (“说话的存在” ) 眼里“好到吓人”。
那么,接下来的技术政治学问题就是:倘若人工智能并不会产生意识,信任问题是否得以化解?