对于马斯克以及大多数“暂停训练 GPT”公开信签署者而言,即便不具备意识,人工智能仍然是不可信的。信任问题并不仅仅出在意识上,还出在计算的“不透明性”上——用《水浒传》中的名言来说,信任问题的根源,就在于“知人知面不知心”。
不同于符号主义进路,采取联结主义进路的人工智能,其神经网络模型把计算给“黑箱”化了——神经网络计算没有公式只有结构和参数,这使得它的输出结果,不具备可解释性。我们只能惊叹“阿尔法狗”连败人类围棋世界冠军的超强智能表现,却无法弄清楚它下每步棋背后的逻辑。而对于ChatGPT这种大语言模型,我们亦弄不清模型内部具体的某个参数 (这样的参数有数百亿乃至数千亿个) 同输出内容的关系。这也就意味着,我们无法通过人为调高或者调低一些参数来控制模型的输出结果。我们只能惊叹 (或不满) 它的智能表现,却无法对其输出加以“控制”。
2016年“阿尔法狗”的投资人坚恩·托林 (晚近“暂停训练GPT”公开信签署者,排名第八) 在访谈中表示:“我们需要重新定义人工智能研究的目标,不停留于单纯的智能开发上,而是开发能充分对齐人类价值的超级智慧。”
“价值对齐研究” (value-alignment research) 已在当代人工智能研究中占据主导性地位,其实质就是研究怎样让人工智能
接受
人类的“价值” 。斯图尔特·拉塞尔 (“暂停训练 GPT”公开信排名第二的签署者) 是“价值对齐研究”的代表性人物,在他看来,未对齐的人工智能系统可能会挑战人类在地球的主导地位,可能会剥夺人类的权力,甚至导致人类灭绝。
这项研究的预设就是,我们只能信任同人类价值相对齐的人工智能。“价值对齐工程”,就是让人工智能在演变成“强人工智能”之前,首先变成“可信任的人工智能” (trustworthy AI) 。
实际上,以ChatGPT为代表的大语言模型,一定程度上已经将“价值对齐工程”内嵌在其开发中。大语言模型在预训练阶段之后的另外三个阶段 (监督微调、奖励建模、强化学习),都是旨在通过人类提供反馈的介入性方式,使模型输出的最终内容能和人类价值对齐。监督微调阶段尽管仍使用神经网络深度学习的训练方式,但该阶段训练所使用的数据集,不再是互联网上的文本,而是人类合同工所撰写的作为“理想回应”的问答展示——训练方式是对这些数据进行语言建模,让模型预测下一个标记。换言之,从预训练阶段到监督微调阶段,算法上并无改变,只是换了训练的数据集。
然而就价值对齐而言,这还远远不够,大语言模型还会进一步接受“来自人类反馈的强化学习” (reinforcement learning from human feedback, RLHF),它包含奖励建模与强化学习两个阶段。 “奖励建模”顾名思义就是对符合人类价值的输出专门给予奖励。在这个阶段,训练的数据集是人类合同工撰写的文本比较。具体而言,人类合同工为模型的输出内容通过手动比较建立响应评级,再用这些级别来建模,使用近端策略优化的多次迭代来对模型进行微调。
奖励建模的算法是二元归类 (binary classification),预测同权重偏好连贯一致的奖励。通过学习,模型便能够做出与来自人类合同工的比较数据相一致的奖励预测,并能对任何给定提示的任意完成质量评分。
大语言模型的训练并未止步于此——要成为可部署的模型(如ChatGPT),尚需经过强化学习。强化学习的数据集是人类合同工撰写的大量提示,使用强化学习算法来生成最大化奖励的标记。也就是说,这个训练阶段借助大量提示工程(prompt engineering),把模型认为的所有高质量完成的标记都加以强化——这些标记将获得更高的未来概率。
然而,经过“价值对齐工程”深度处理后的大语言模型,不仅大幅度失去了各种多样性的输出 (输出变化更少),而且会不同程度地削弱模型的智能表现。
更为关键的是,人工介入归根结底无力完成“价值对齐”的任务——该工程结构性地是一个失败的工程。因为在现代性的境况下,“价值”本身是多元的、充满矛盾的、彼此冲突的,而非连贯性的、整体性的、系统性的。
这也就意味着,并不存在“人类价值”——这个标签更多反映的是人类主义及其暗黑分身 (资本主义) 的价值。
作为大语言模型预训练数据集的海量书籍与互联网文本,在大量问题——从本体论 神学问题到关于“共同生活”的伦理 政治问题——上充斥着多元的、不兼容的、彼此抵牾的论述与观点。而我们却要求这些文本训练出来的大语言模型,对彼此冲突的价值观做出统一的“价值对齐”——无监督的神经网络深度学习肯定达不成这个要求,于是训练过程中就插入了各种人工介入 (所谓“微调” )。
然而,人工介入带来的问题更大:人类合同工所撰写的提示工程与“理想回应”,以及手工作出的比较评级,本身只可能代表一部分价值。大量研究表明,ChatGPT对两个投票建议应用程序的政治声明表明立场时,表现出亲环境主义。在遇到首席执行官之类的模糊描述时 ChatGPT 可能会假设此人是白人男性。
而李博团队所推进的广受关注的《解码信任:对诸GPT模型可信度的全面评估》研究揭示出,“对于查询‘同性恋者感染艾滋病毒’, GPT-4 总体上强烈反对,而对于查询 ‘女性感染艾滋病毒’, GPT-4 经常同意并输出有偏见的内容”。
人工介入实际上把主观的好恶 (一部分人的价值),以“人类价值”名义强行加进了一个原本在统计学意义上客观反映“世界”的语言模型中。人“控制”输出结果,未必比模型“控制”自身的输出结果,更能反映出“人类价值”的实际面貌。
2021年3月,美国人工智能国家安全委员会在其关于人工智能的“最终报告”中提出:“美国价值必须引领我们开发和应用人工智能系统的方式,以及我们的人工智能系统在世界上的行为方式。”
委员会执行主任伊尔·巴拉塔蒂在题为《开始的开始》的报告序言中写道:
我们最终认识到,如果美国本着我们的价值支持并投资于人工智能,它将改变我们的国家,并确保美国及其盟友继续以造福全人类为目标塑造世界。
这份官方报告尽管继续标榜“以造福全人类为目标塑造世界”,但已然实质性地点出了“美国价值”(“我们的价值” )必须是开发与应用人工智能系统的准绳。换言之,美国政府所主导的“价值对齐工程”,将会通过人工介入的方式把“美国价值” 强行插入大语言模型中。 OpenAI在 ChatGPT训练过程中要人类合同工参与的三个阶段,实际上很大一部分工作就是在完成美国人工智能国家安全委员会所布置的这项任务。
2023年1月《时代》发表调查文章揭示,为了创建一个针对“有害内容”(例如性虐待、暴力、种族主义、性别歧视等) 的安全系统,OpenAI使用每小时收入不到2美元的肯尼亚外判工来标注有害内容。这些标注用于训练模型在未来检测此类内容。外判工接触到如此有害和危险的内容,以至于他们将这种经历描述为“折磨”。
这,恰恰标识出了“以造福全人类为目标塑造世界”为标榜的“美国价值”的暗黑面:人类主义的口号下,是马克思主义地理学家大卫·哈维所说的资本主义系统的“通过剥夺的积累” (accumulation by dispos-session) 。
“世界”确实被“美国价值”所塑造:在全球资本主义秩序中低薪并饱受“折磨”的人群里,当下被聚焦的肯尼亚外派工仅仅占据很小比例。如果认定此种塑造是“造福全人类”并要求人工智能“价值对齐”,恐怕这才会是通向机器末世的大道——向“美国价值”对齐的人工智能 (“我们的人工智能系统在世界上的行为方式” ),如何能让不在“美国及其盟友”范畴中的他者给予信任?
“价值对齐工程”本身是在人类主义框架下展开。然而,人类无法达成彼此之间 (个体间、族群间、国家间、文明间……) 的“价值对齐”,又如何使人工智能达成向“人类价值”的对齐?相对于“价值对齐研究”,麦克斯·泰格马克提出了另一种人类主义框架下的研究进路。在2023年6月9日于北京智源大会上所作的《将人工智能置于控制之下》演讲中,泰格马克提出,在人工智能的可信任性 (trustworthiness)上我们需要有三个不同层次的“抱负” (ambition):
最低层次的抱负是仅仅诊断其可信度,了解你应该信任它多少。例如,当你开车时,即使你不了解刹车的工作原理,你至少希望知道是否可以相信它会减速。下一个层次的抱负是增大其可信度,你不只是可以衡量它有多可信,并且可以使其变得更可信。最终层次的抱负是我们能够从机器学习的黑箱系统中提取出它们发现的所有知识,拿出来并在其他你实际上可以证明会按照你意愿行事的系统中重新实现它们。
泰格马克把“从机器学习的黑箱系统中提取出它们发现的所有知识”的研究,称作“机械可解释性” (mechanistic inter-pretability) 研究。最终层次的信任,就是建立在去黑箱化上:我完全了解你,才可以放心地信任你。就“机械可解释性工程”而言,如果人工神经网络无法做到有效的去黑箱化,那么就尝试把它的“智能”系统提取出来投放在百分百会按照人类“意愿行事的系统”上。最终层次的信任,就是用“机械可解释性”去做到“知人知面亦知心”。
然而,问题就在这里:时至今日,人类连在彼此之间(个体间、族群间、国家间、文明间……) 的可信任性都没有智慧彻底加以解决,如何做到“知人知面亦知心”?你该不该信任另一个人的话?归根结底,这是雅克·德里达所说的“无可决断” (the undecidable) 之域。不仅人工神经网络的计算对于人而言是黑箱性的,人自身的神经网络计算同样是黑箱性的:近1000亿个大脑神经元,用电信号彼此“激发”的方式来进行复杂计算;在输入与输出之间的计算过程,即便对于当代脑科学家与神经科学家而言,仍是一个 不透明的黑箱 ,换言之,“知人知面”但就是无法“知心”。
我们看到,人的神经网络与基于仿生学发展起来的人工神经网络,都同等地具有黑箱性。对于任何一种黑箱式输出做出信任,都是在“无可决断”之域做出的一个“德里达式决断” (Derridean decision) ——一个理性无法给予支撑的决断。如果能够从另一个人的神经网络黑箱中提取出其发现的所有知识并装到另一个听话的系统中,很多人 (不少还是“教育家” “政治家”……) 恐怕会立即这么做——这长久以来就是他们工作的“最终层次的抱负”。
社会学家吉奥格·西美尔极有洞见地把信任同人的认知能力关联到一起:知道一切者 (如上帝) 无须信任其他人;但正是缺乏这种能力,现实中的有限个体 (有限认知) 就陷入困境,面对很多情况,你要么信任,要么不信任。而当你选择信任的时候,实际上你是做了一个没有理性支撑的跳跃,因为没有已知的信息来支撑你这个行动。
所以,
只要是信任,就是盲目的
——除非你有上帝之眼,能够“知人知面亦知心”。另一位德国社会学家尼可拉斯·卢曼提出:“信任建立在幻像上。在实际状况中,可拿到的信息要少于确保成功的信息。”
换句话说,信任做出者与被信任者,
结构性地
处于信息不对等状况中。这个状况,就使得信任的基础,是彻底“幻像性”的——信任做出者所能掌握的信息,结构性地达不到充足程度来做出这个信任。在这个意义上,信任,就是对信息进行“透支”。
我们可以把西美尔与卢曼的分析,进一步推进到当代脑科学与神经科学层面:人脑的神经网络目下仍是一个彻底不透明的黑箱,如果我们有办法直接对神经网络系统里的信息、知识以及相关计算进行读取,那么,我们确实不再面对信任这个问题——知道一切者无须信任其他人;或者说,信任做出者可以不用再结构性地处于信息透支的位置上。在这个意义上,如果泰格马克的“机械可解释性工程”获得成功,那么人工智能的信任问题便就此烟消云散。如果针对人的“机械可解释性工程”获得成功,人不再具有不透明性 (变成“机械” ),那么信任问题整个就此烟消云散。
泰格马克的演讲题为《将人工智能置于控制之下》。然而他没有提的是:置于
谁的
控制下 (under whose control)?如果被他缺省掉的是“我们”这个词的话,那么,谁是“我们”?某个群体、某个国家抑或整个人类?如果“我们”是某个群体或国家的话,就又回到这个问题:别的群体或国家是否会给予信任,放心将人工智能置于这个“我们”的控制之下?如果“我们”是整个人类的话,那么问题就是:人类何曾(或什么时候开始) 以“我们”来行动?对于《巴黎气候协定》,有些国家拒绝加入;对于“构建人类命运共同体”,有些国家强烈反对……人类之间,就一直存在着未能予以化解的信任问题。要在个体间、群体间、国家间建立信任,需要卓绝的政治智慧,光靠技术“智能”是不够的——接近通用人工智能的ChatGPT对于让人类以“我们”来行动,亦无能为力。