03 给机器输入使命

THE PURPOSE PUT INTO THE MACHINE

We may face the prospect of superintelligent machines—their actions by definition unpredictable by us and their imperfectly specified objectives conflicting with our own—whose motivations to preserve their existence in order to achieve those objectives may be insuperable.

未来我们可能面临这样的情景：我们无法预知这些超级智能机器的行动，它们不完全明确的目标与我们自己的目标相冲突——而为了实现这些目标必须生存下来的动机非常强大。

斯图尔特·罗素
Stuart Russell

斯图尔特·罗素是加州大学伯克利分校的计算机科学教授、史密斯-扎德工程学讲席教授。他与彼得·诺维格（Peter Norvig）合著了《人工智能：一种现代的方法》（ Artificial Intelligence: A Modern Approach ）。

布罗克曼谈斯图尔特·罗素

计算机科学家斯图尔特·罗素和埃隆·马斯克、史蒂芬·霍金、迈克斯·泰格马克以及其他许多人一样，坚持认为，我们应该慎重创造超人类水平甚至人类水平的智能，也就是通用人工智能。这里面存在着潜在危险：这些智能程序的目的可能未必与人类设计的目的一致。

他早期的研究主要致力于把“有界最优性”（Bounded Optimality）这一概念理解为对智力的正式定义。他开发出理性元推理技术，“简单地说，就是那种你希望能够尽快提高最终决定的质量的计算”。他致力于概率论和一阶逻辑的统一，为《全面禁止核试验条约》提供全新的、更为有效的监测系统，同时还致力于解决长期的决策问题。他对最后一个主题的陈述常以“生命：在20万亿个动作中打赢”为标题。

他非常关注自主武器的持续发展，如杀伤力极强的微型无人机，这些无人机极有可能变为大规模杀伤性武器。他起草了写给奥巴马总统的信，信中汇集了世界顶尖的40名人工智能研究者的意见，这封信促成高级别美国国家安全会议的召开。

他目前的工作主要是建造他所说的“可证明有益的”人工智能。他希望通过“将明确的不确定性输入系统”来确保人工智能的安全性，这种不确定性是指人类程序员的目的具有不确定性。这种方法将彻底打乱当前人工智能的研究。

在过去20多年里，学过计算机科学课程的人一定都听说过斯图亚特的名字。他与人合著了人工智能领域的权威教科书，估计有500多万英语读者。

诺伯特·维纳在《人有人的用处》一书中提出了许多问题，其中对当今人工智能研究者来说最重要的问题就是：人类将自己的命运交给机器掌握的可能性。

维纳认为，在不久的将来，机器的能力太有限，无法控制全球。相反，他认为，机器和像机器一样的控制系统将掌握在人类精英手中，绝大多数人类将沦为“齿轮、杠杆和棍子”。展望更远的未来，他指出给这些具有超高能力的机器确定明确目的，有相当的难度。他说：

生活中有一些更简单、更显然的真理，比如瓶子里发现有个魔鬼，最好的办法就是让他待在那里；比如渔夫为他的妻子祈求许多恩惠，最终却又回到原点；再比如假设你可以实现三个愿望，那你要非常小心地许愿。

其危险显而易见：

除非我们事先检查了机器的行为规律，完全清楚它的行为是按照我们能接受的原则进行的，否则让机器决定我们的行为，那就太不幸了。另一方面，像神灵这样的可以学习、可以根据其学习做出决定的机器，绝不会被迫做出人类本该做出的决定，也绝不会做出人类可接受的决定。

10年后，看到阿瑟·塞缪尔（Arthur Samuel）设计的西洋跳棋博弈程序可以比它的设计者下棋下得好得多，维纳在《科学》杂志上发表了《自动化的一些道德和技术后果》（Some Moral and Technical Consequences of Automation）。在这篇文章中，他的观点更加清晰：

如果为了达到目的，我们使用一个无法有效干预其操作的机械装置……我们最好确信我们让机器拥有的目的就是我们真正想要的目的。

在我看来，这就是近年来埃隆·马斯克、比尔·盖茨、史蒂芬·霍金和尼克·波斯特洛姆等观察家提出的超级人工智能存在风险的根源。

将目的输入机器

人工智能研究的目标是了解智能行为背后的原理，并将这些原理注入机器中，使其可以表现出这样的行为。在20世纪60年代和70年代，主流的智能理论是指逻辑推理的能力，包括为实现特定目的设定行动计划的能力。最近，大家就理性主体的思想达成了一致，理性主体可以感知并采取行动，以求最大限度地发挥其预期效用。逻辑规划、机器人学和自然语言理解等子领域都属于这个一般范式中的特殊情况。人工智能领域已经纳入概率理论来处理不确定性，纳入效用理论来定义目标，纳入统计学习以使机器适应新的环境。这些进展使人工智能与其他学科建立了强有力的联系，这些学科建立在相似的概念上，包括控制理论、经济学、运筹学和统计学等。

在人工智能的逻辑规划和理性主体视角中，机器的目的，无论是以目标的形式，还是效用函数、奖赏函数（如强化学习）的形式，都是外生的。用维纳的话说，这就是“赋予机器以目的”。事实上，人工智能领域有一个信条，即：人工智能系统应该拥有一般目的，也就是说，它能够接受一个输入的目的，然后实现这个目的；人工智能不应该有特殊目的，也就是隐含在它的设计中的目的。例如，自动驾驶的汽车应该接受输入的目的地，而不是有一个固定的目的地。但，汽车的某些“驾驶目的”是固定的，例如它不应该撞到行人。这个目的直接建构于汽车的驾驶程序之上，不是外显的，毕竟现在没有一台“自动驾驶汽车”“知道”行人不想被撞到。

赋予机器目的，使它能够根据明确的计算程序来优化它的行为，这似乎是一个不错的方法，可以确保“机器按照我们可接受的原则行动”。但是，就像维纳警告我们的那样，我们需要赋予机器正确的目的。这可以称之为迈达斯国王的问题：迈达斯得到了他想要的，凡是他所接触到的东西都会立刻变成金子，但很快他就发现这是一个灾难，他喝的水变成了黄金，吃的食物也变成了黄金。用专业术语表示赋予正确的目的就是“价值对齐”。如果不能“价值对齐”，我们可能会无意中赋予机器与我们自己的目标完全相反的目标。为了尽快找到治疗癌症的方法，人工智能系统可能会选择将整个人类作为豚鼠进行实验。为了解决海洋酸化，它可能会耗尽大气中的所有氧气。这是系统优化的一个共同特征：目标中不包含的变量可以设置为极值，以帮助优化该目标。

然而，无论是人工智能还是围绕目标优化的其他学科，如经济学、统计学、控制理论、运筹学等，都无法确定究竟什么是“我们真正想要的目的”。相反，这些学科假定我们只是简单地把目标赋予机器。目前人工智能的研究主要是研究机器实现目标的能力，而不是如何设计那些目标。

史蒂夫·奥莫亨德罗（Steve Omohundro）提出了一个更大的难题，他观察到智能实体必须靠行动来保护自己的存在。这与自我保护的本能或其他任何生物学概念无关，而只是因为如果实体死亡，它就无法实现自己的目的。按照奥莫亨德罗的说法，一个有开关功能的超级智能机器，会采取某些行动使开关失效。 ^[1] 艾伦·图灵本人在1951年英国广播公司第三电台的谈话节目中，把这样的机器看成人类的救赎。因此，未来我们可能面临这样的情景：我们无法预知这些超级智能机器的行动，它们不完全明确的目标与我们自己的目标相冲突——为了实现这些目标而要生存下来的动机非常强大。

站不住脚的1001个理由

对于这种论点，有些人，主要是那些人工智能领域的研究人员，提出了反对意见。这些反对意见反映出一种自然的防御反应，也许还反映出对超级智能机器的能力缺乏想象。但仔细想想，这些观点一个都站不住脚。下面是常见的观点：

◎ 不用担心，我们只需把开关关上。 一说到超级人工智能会给我们带来的风险，往往局外人就会第一个想到这件事，就好像超级智能实体永远不会想到这件事一样。这就好比说人类败给“深蓝”或“阿尔法围棋”的可能性微乎其微，因为我们只需一步接一步地走对棋就行了。

◎ 根本不可能出现达到人类水平甚至超人类水平的机器人。 ^[2] 这是人工智能研究人员的一种不寻常的说法，因为从图灵起，他们一直在回避哲学家和数学家的这种说法。虽然没有证据支持，但这种说法似乎认为，如果有可能创造出超级人工智能，那将存在重大的风险。就好像一个公共汽车司机，车上是全体人类，他说：“是的，我正朝悬崖驶去，事实上，我正在加速！但是相信我，还没等我们到那里，汽油就会用完！”这种说法很愚蠢，它在赌人类缺乏创造力。我们以前这样赌过，但输了。1933年9月11日，著名物理学家欧内斯特·卢瑟福（Ernest Rutherford）满怀信心地说：“任何希望从这些原子转变中获得能量的人都在痴心妄想。”1933年9月12日，利奥·西拉特（Leo Szilard）发现了中子诱发的核链式反应。几年后，他在哥伦比亚大学的实验室证实了这样的反应。正如他在回忆录中所写：“我们把一切关闭，回到家。那天晚上，我脑海中非常确定，世界正走向悲伤。”

◎ 现在担心它为时过早。 到底该什么时候担心人类可能要面对的这些严重问题，这不仅取决于问题发生的时间，还取决于制定和实施避免风险的解决方案所需的时间。例如，如果我们探测到在2067年将有一颗大型小行星与地球相撞，我们会说“现在担心它为时过早”吗？如果我们预计由于气候变化会在21世纪末发生全球性灾难，现在采取行动阻止它还为时过早吗？不早！相反，可能是为时已晚。我们无法预测什么时候会有达到人类水平的人工智能，但是，像核裂变一样，它可能会比预期的时间来得早。关于这一论点，还有另一种说法，就像吴恩达所说的：“这就像担心火星上会人口过剩。”这是一个类比：它说明这种风险不仅很容易控制，而且距离我们太过遥远，不仅如此，从一开始，我们甚至不太可能会尝试把数十亿人迁徙到火星上。但是，这一类比是错误的。我们现在已经投入巨大的科学技术资源来创造越来越有能力的人工智能系统。一个更贴切的类比应该是我们欲把人类迁往火星，但却没有考虑到，我们一旦到达，该呼吸什么、喝什么或吃什么。

◎ 无论如何，达到人类水平的人工智能并不是真的很快就会出现。 例如，斯坦福大学的《人工智能百年报告》告诉我们：“与大众媒体对人工智能的神奇的预测相反，研究小组发现我们没有理由担心人工智能眼下就会对人类造成威胁。”这一论点扭曲了我们担忧的原因，我们并不是担心这种威胁迫在眉睫。尼克·波斯特洛姆在他2014年出版的《超级智能》（ Superintelligence ）一书中写道：“人工智能是否即将有重大突破，或者我们可以精确地预测什么时候会有这样的突破，这并不是本书要探讨的内容。”

◎ 你只是一个卢德分子。 这么说很奇怪，因为如此定义的话，卢德分子将包括图灵、维纳、明斯基、马斯克和盖茨在内的那些在20世纪和21世纪对科技进步做出最杰出贡献的人。这个称呼也说明大家完全误解了这种担忧的性质和原因。这就好像说，如果他们指出人类有必要控制裂变反应，我们就要指责核工程师是卢德分子一样。一些反对派还使用“反人工智能分子”这个术语，这相当于称核工程师为“反物理学分子”。我们理解和预防人工智能会带来的风险，其目的是确保我们能够得到益处。例如，波斯特洛姆写道，成功地控制人工智能将带来“一种文明的轨迹，使人类能充满同情地、快乐地使用宇宙的馈赠”——这并不是悲观的预测。

◎ 任何足以带来麻烦的机器都非常聪明，它们有适当的利他目标。 （通常，这种观点有一个前提，即智力更高的人常常更有利他主义目标，这一观点可能与持这种观点的人的自我认知有关。）这一论点与休谟的“应然与实然”和G. E.摩尔（G. E. Moore）的自然主义谬误有关，这意味着，由于机器有智慧，那么鉴于它自己的世界经验，在某种程度上它会觉察到什么是正确的。这让人无法相信。例如，我们不会在棋盘和棋子的设计中认识到“将军”的目标；因为同样的棋盘和棋子可以作为自杀棋，或者还可以开发出许多其他游戏。再举个例子：在波斯特洛姆的想象中，人类被一个假定的机器人灭绝，这个机器人把地球变成回形针的海洋，我们人类会觉得这个结果很悲惨，可是吃铁的氧化亚铁硫杆菌却兴奋不已。谁会说这个细菌做错了吗？人类赋予机器固定的目标，这并不意味着它会自动认识到那些不属于目标的事物对人类来说也是重要的。机器最大化实现目标很可能会给人类带来问题，但根据定义，机器不会将这些问题识别为问题。

◎ 智能是多维的，“所以比人类更聪明”这句话没有意义。 ^[3] 这是现代心理学的主流思想，也就是说智商没有完全展现出人类拥有的不同程度的认知能力。智商确实是衡量人类智能的一种粗略手段，但对于目前的人工智能系统来说，智商毫无意义，因为人工智能在不同领域的能力是毫无关联的。谷歌搜索引擎不会下棋，而深蓝无法回答搜索查询，我们如何比较谷歌搜索引擎和深蓝的智商？

◎ 这些都没有支撑这一论点，也就是“因为智能是多方面的，所以我们可以忽略超级智能机器带来的风险”。如果“比人类更聪明”这一概念没有意义，那么“比大猩猩更聪明”也毫无意义，因此大猩猩不需要害怕人类；但很显然，这么说当然站不住脚。在所有相关的智能维度上，一个实体比另一个实体更有能力，这在逻辑上是可能的，不仅如此，一个物种会对另一个物种的生存造成威胁，即使前者无法欣赏音乐和文学，这也是可能的。

解决之道

我们能直面维纳的警告吗？我们能否设计出一种人工智能，使它的目的与人类的不冲突，从而可以确保我们对它们的表现很满意？表面上看，这似乎完全不可能，因为无疑我们无法准确写下人类的目标，也不可能想象出人工智能在实现这些目标时所采用的所有违反直觉的方式。

如果我们把超级智能的人工智能系统看成来自外太空的黑盒子，那么我们就没有什么希望。相反，如果我们想要对结果有信心，那必须采取的方法就是定义什么是形式的“问题F”，然后再把人工智能设计成“问题F的解决者”，这样，无论这个系统以什么方式解决了“问题F”，我们都会对解决方案感到满意。如果我们能找到合适的“问题F”，那么我们就能创造出“有益的人工智能”。

下面这个例子告诉我们怎样才能不这样做：以某种标量值作为奖励，由人类根据机器在每一个时期的表现，定期给机器奖励，然后把“问题F”定义为将机器获得的预期奖励总和最大化。对于机器来说，这个问题的最佳解决方案并不是像人们所希望的那样，要好好表现，而是控制人类，强迫他或她提供最大的回报。这被称为“大脑连线”问题，根据观察发现，如果可以用电流直接刺激自己的快乐中枢，人类自己也容易受到同样问题的影响。

我相信，一定会有一种有效的方法。可以说，虽然大多数时候表现不明显，但人类对未来的生活有自己的偏好，也就是说，如果有足够的时间把未来生活的无限可能展现在人类面前，人类就可以从任意两种可能之间挑出更喜好的那一个。（这种理想化状态忽略了这种可能性，即我们的思维里有许多子系统，这些子系统的偏好各不相容；如果真的如此，这会限制机器的能力，使它无法满足我们的偏好，但这似乎并不妨碍我们设计出可以避免灾难性后果的机器。）在这种情况下，机器要解决的形式“问题F”是最大限度地满足人类对未来生活的偏好，尽管它最初对人类的偏好并不确定。此外，尽管人类对未来生活的偏好是隐变量，但这些偏好根植于大量的证据，也就是根植于所有做出过的选择。这一构想回避了维纳的问题：随着时间的推移，机器可能会对人类的喜好越来越了解，但它永远不会完全确定。

协同反向强化学习，更精确地解释了这个问题。协同反向强化学习包含两个方面，一个是人类，另一个是机器人。因为包含两个方面，所以这个问题就成了经济学家所说的“博弈”问题。这个博弈的信息是不全面的，因为虽然人类知道奖励函数，但机器人却不知道，即使机器人的任务是使其最大化。

举一个简单的例子：假设人类哈丽特喜欢收集回形针和订书钉，她的奖励函数取决于她各收集了多少。更准确地说，如果她有 p 个回形针、 s 个订书钉，她的幸福度是 θp +（1- θ ） s ，这里 θ 指回形针和订书钉之间的兑换率。如果 θ 是1，她只喜欢回形针；如果 θ 是0，她只喜欢订书钉；如果 θ 是0.5，她对两个都一样喜欢；等等。机器人罗比的工作是生产回形针和订书钉。博弈的关键是罗比想让哈丽特高兴，但他不知道 θ 是多少，所以他不知道该生产多少回形针、多少订书钉。

博弈过程是这样的：让 θ 的真值为0.49，也就是说，在回形针和订书钉之间，哈丽特略微偏爱订书钉。我们假设罗比对 θ 有一个统一的先验信念，也就是说，他认为 θ 会是介于0和1之间的任何值。哈丽特现在做一个小演示，或者生产2个回形针，或者生产2个订书钉，或者每样生产1个。之后，机器人或者要生产90个回形针，或者生产90个订书钉，或者各生产50个。你也许会猜，因为哈丽特更喜欢回形针一些，所以应该生产2个回形针。但如果这样，罗比做出的理性反应应该是生产90个回形针，这时哈丽特的幸福度为45.9。对于哈丽特来说，这样的结果没有各生产50个要好，其幸福度为50.0。对于这个博弈，最优的解决方案是哈丽特每样各生产一个，这样罗比可以每样各生产50个。因此，我们对博弈的界定就使得哈丽特可以“教会”罗比，只要她知道罗比在仔细观察。

在协同反向强化学习框架内，人们可以构想出开关问题并解决它，也就是如何防止机器人使自己的开关失灵（图灵可以高枕无忧了）。如果一个机器人不确定人类的偏好，那么把它的开关关闭实际上对它有益，因为它知道人类会按下开关，不让它做与人类偏好相反的事情。这样，机器人就会受到鼓励保护它的开关，这种鼓励直接来自机器人对人类偏好的不确定性。

上述的开关示例给出一些模板，使我们可以设计出可控机器人，它还给我们提供了至少一种很可能非常有益的系统。这个系统的总体思路类似于经济学中的机制设计问题，也就是一方激励其他方以有益于设计师的方式行事。两者的主要区别在于，我们建造一个机器人是为了使人受益。

我们有理由认为这种做法在实践中很可能是有效的。首先，我们有丰富的文字和影像资料记录了人类行事方式和其他人的反应方式。在建立超级智能人工智能系统之前，我们完全有可能根据这个资料库建立人类偏好模型。其次，让机器人了解人类偏好会带来很强的短期经济效益：如果一个设计拙劣的家用机器人不知道情感价值比营养价值更重要，它把猫给炖了当作晚饭，那么家用机器人业将破产倒闭。

然而，这里有一个明显的难题，也就是如何让机器人了解人类行为的潜在偏好。人类并不理性，他们反复无常、意志薄弱、计算能力有限，所以他们的行为并不总是反映他们真正的偏好。例如，有两个人在下棋。通常，有一方会输棋，但他不是故意的！因此，只有借助于更好的人类认知模型，机器人才能从非理性人类行为中学习。此外，现实和社会的禁锢也使人类的所有偏好无法同时得到最大限度的满足，这意味着机器人必须在矛盾的偏好中协调，为此哲学家和社会科学家已经奋斗了几千年。而从那些喜欢折磨别人的人身上，机器人应该学到什么呢？最好在机器人的计算程序中剔除这些偏好。

找到人工智能控制问题的解决方法是一项重要任务，用波斯特洛姆的话来说，这可能是“我们这个时代的关键任务”。到目前为止，人工智能的研究主要集中在设计出能更好做出决策的系统上，但这与做出更好的决策是不一样的。无论它的算法多么优秀，也不管它的世界模型多么精确，如果一个机器的效用函数与人类价值不一致，那么很可能在一个普通人眼中它的决策就是愚蠢至极。

这个问题需要我们改变对人工智能的定义，人工智能不再是一个与纯智力相关、与目标无关的领域，它是一个有益于人类的系统。认真思考这个问题，我们可能会对人工智能、它的目的以及它与人类的关系产生新的思路。

[1] Omohundro, "The Basic AI Drives," in Proceedings of the First AGI Conference , 171;and in P. Wang, B. Goertzel, and S. Franklin, ed., Artificial General Intelligence (Amsterdam, The Netherlands: IOS Press, 2008).

[2] 由斯坦福大学赞助的《人工智能百年报告》（ The AI100 Report ）中写道：“与电影不同，现实社会中没有发现超人类机器人的踪迹，甚至也不可能有。”

[3] Kevin Kelly, "The Myth of a Superhuman AI," Wired , April 25, 2017.