比较（2023年第1辑总第124辑）最新章节_吴敬琏著

4.运用共有思维模型的见解改进“我们”的思维方式

《2015年世界发展报告》（2014）引人注目，它不仅让我们认识到“一刀切”政策模式的问题和局限性，而且向我们明确，“当人们发现结果与预期不符时，可以调整自己的思维模型来改变结果”（第62页）。若果真如此，那么行为人就可以通过学习更好的思维模型并与他人分享，来改善因风险产生的不利条件。经济行为人实现这一目标的方法之一是，“熟悉稳定的社会、政治和经济参数，这些参数同时塑造了他们所处的环境”（Denzau and Roy，2017）。事实上，“我们用来评估世界的思维模型越准确，就越有助于减少不确定性带来的许多成本”（同上）。

4.1 共有思维模型中学习角色的转变

我们在之前的研究中提出，思维模型的学习可以发生在两个不同的层次。第一层次称为“参数学习”，涉及对我们现有的因果信念以及对世界的理解进行常规、渐进或小幅的调整或改进。这种基本的学习模式与所谓的“贝叶斯学习”一致。我们注意到，当新的信息出现时，贝叶斯学习者不太可能从根本上改变他们关于世界如何运行的现有核心信念。相反，贝叶斯学习者倾向于将新信息纳入已有的信念，继而微调思维模型。

我们区分了参数学习与第二层次的学习，即“模型学习”（model learning），它是要打破思维模型及其隐含的核心假设。如果个人或群体的共有信念体系始终无法为正在发生的事件提供合理解释或解决持续存在的问题，那么即便是忠实的信徒也可能被迫重新思考或放弃这些思维模型，寻找替代方案。当学术领域、专业领域或科学共同体内部有大量人员分享这些经验时，往往会导致范式转变和科学革命。这些主题在托马斯·库恩的《科学革命的结构》、彼得·霍尔的《范式与政策变革》、弗兰克·鲍姆加特纳的《思想与政策变革》和马克·布莱斯的《大变革：20世纪的经济理念与制度变革》等著作中得到了很好的讨论。

思维模型学习的根本转变可以反映我们现有知识领域的“创新”和“突破”。然而，正如戴明所说，“科学发现不是计划出来的，创新也不是计划出来的”。一旦环境发生了某种根本转变，理解世界运行方式的新思维模型通常就会出现。哪怕是沉重的不幸和可怕的悲剧，也能推动知识的惊人进步，从而提高人类的生产力和创造力。例如，亚历山大·弗莱明博士的一次实验室事故引发了新的研究方向，最终导致抗生素的发现，挽救了数百万人的生命。

我们在2005年的“公共选择”会议上提交了一篇论文，其中引入一个框架，通过“囚徒困境”的基本应用，探究共有思维模型的发展、演变和消散，这种“囚徒困境”广泛应用于非合作博弈论中。

在有限静态的囚徒困境博弈中，“传统的”纳什均衡是每个参与者“背离”合作策略，期望避免通常所说的“受骗者”收益（sucker payoff）。这种情况下，一名囚徒保持沉默（合作）并因此承担更重的惩罚，另一名囚徒则坦白从而换取减刑。在涉及两个或多个参与者的传统合作博弈场景中，纳什均衡表明，没有哪个参与者能够通过单方面改变自己的策略来提高收益。该模型还假设每个参与者都知道其他参与者的均衡策略，并且每个参与者都以完全相同的方式和程度理解所有可能的解决方案和结果。但倘若事实并非如此呢？正如本文始终强调的，行为人通常借助认知过滤器和观念透镜来感知其拥有的信息。因此，在现实世界中，行为人拥有的知识往往是不完美、不完备和不对称的。

当行为人对环境有共同的理解时，他们之间就更有可能进行合作。如果行为人的思维模型基本趋同，他们就能更好地理解他们的共同之处。因此，他们更有可能看到潜在的双赢解决方案。相比之下，当行为人的思维模型差异很大时，他们大概率会以相互排斥、零和的方式感知世界，而不太可能发现他们的共同之处。

根据这一想法，我们构建了一个模型，它使我们可以从理论上分析行为人的思考和相关策略的重点，即从“我”转向“我们”的过程。我们认为，这一转变必然是思维模型的转变，从“主观的”理性解释转为“主体间的”解释或共有理性（shared rationality）。因此，我们不是提出一个纳什均衡概念，而是提出三个：主观纳什均衡（SNE）、主体间纳什均衡（ISNE）和客观纳什均衡（ONE），其中客观纳什均衡是传统博弈论中的纳什均衡。

丹佐、米纳斯和罗伊在2016年由 Kyklos 杂志发表的文章中，借鉴了2005年论文概述的从主观纳什均衡转向主体间纳什均衡的想法，帮助我们将“学习路径”运用到戴明关于“系统思维”（systems thinking）的哲学方法中。戴明的哲学体系被称为深度知识系统（SoPK），它植根于如下信念：在某一给定系统中发挥作用的那些功能是相互依存和相互关联的，无论该系统内的参与者是否意识到这一点，都是如此。但是，大多数参与者往往在思维孤岛中单打独斗，这使他们无法了解自己执行的功能如何影响（以及受影响于）同一系统中其他人的活动。戴明称这种情况为“常态”（business as usual）。在他基于系统的“深度知识”理论中，有一个不可或缺的部分，其中包含了四个相互关联的构件：（1）对系统的认识和知识；（2）了解系统内的变化（即变化的“共同原因”与“特殊原因”之间的差异）以及这些变化如何影响绩效和相关进程；（3）熟知理论观点或思维模型，它们支撑着我们关于变化“原因”的信念；（4）心理学，即影响个人行为乃至系统中相互关联行为的因果观点或思维模型。我们在2016年的文章中提出的模型概述了思维模型通过学习从“我”到“我们”的转变，该模型基于均衡与学习的三个概念，如下文所述。

4.2 主观博弈分析

考虑一场主观博弈G，为简单起见，它只涉及2个参与者，分别表示为1和2。每个参与者i都有一个策略集S i ，包含可用的策略，并选择其中一个策略，即s i ∈S i ，同时选择博弈的一种思维模型M i （s 1 ，s 2 ），使策略向量s对应于收益向量。为了给主观博弈一个全面的定义，我们还需要把客观收益函数∏（s 1 ，s 2 ）对应于参与者在每次博弈中获得的实际收益。综上，我们得出：

G={（1，2），（S 1 ，S 2 ），（M 1 ，M 2 ），Π（S）}

这个博弈具有客观纳什均衡，使得每个参与者都会对另一个参与者的选择做出最优反应。即存在一个策略向量s O ，使得对于每个参与者比如1（对2也一样），以及所有策略选择t ε S 1 ，都有：

Π 1 （s O ）≥Π 1 （t 1 ，s 2 O ）

现在我们把主观因素纳入分析。主观纳什均衡就是指对参与博弈的每个参与者来说，他的思维模型告知他自己正在博弈。也就是说，存在一个策略向量s O ，使得对于每个参与者比如1（对2也一样），以及所有策略选择t 1 ε S 1 ，都有：

M 11 （s O ）≥M 11 （t 1 ，s 2 O ）

其中第二个下标表示参与者的收益。

请注意，主观纳什均衡与基于客观收益函数∏（.）的客观纳什均衡相关，但未必相同。

4.3 主观纳什均衡与客观纳什均衡的关系

如果两个参与者都有关于世界的正确模型，这就是标准博弈论，而主观纳什均衡就是客观纳什均衡。

直觉上看，主观纳什均衡和客观纳什均衡似乎是相关的，但未必相同。当我们分析经验式学习（experiential learning）时，唯一的限制是，每个参与者在主观模型中的收益必须与客观模型中的相同，但仅限于真正实现（譬如沿着均衡路径）的结果。这基本上是说，参与者从未经历过的非均衡结果不受客观模型的信息所限。显然，如果每个参与者都拥有客观真实的博弈模型，也就是说，如果对于每个参与者iεI，都有：

M 1 =Π i ，

则主观纳什均衡=客观纳什均衡。

当参与者的思维模型不正确时，这就不再适用了。假设双方的思维模型都是错误的。这足以产生一个不是客观纳什均衡的主观纳什均衡。假设参与者R和C在进行带有上下或左右两种策略选项的博弈。这一博弈的客观纳什均衡框架如表1所示。这是一个对称协调博弈，其中客观纳什均衡为{上，左}。

表1

不过，我们假设每个参与都有其不正确的博弈模型，如表2所示。

表2

参与者R认为他在玩囚徒困境博弈，他的占优策略是“下”。参与者C认为，这是一个协调博弈，有两个纳什均衡{上，左}和{下，右}。C相信R也是这么认为的，因此预期R选择“下”，自己则选择“右”。这就导致了主观纳什均衡{下，右}。

在这个主观纳什均衡中，双方得到了他们期望的收益{2，2}，而且根据他们关于博弈的思维模型，每个人都认为对方做出了正确的选择。因此，双方没有任何激励去改变其行为，除非有某些训练引导他们建立关于博弈的思维模型。

如果学习只是经验式的，那么任何参与者都没有理由在主观纳什均衡下（或者说沿着均衡路径）学习。每个人都选择了自认为是对对方选择做出的最佳回应，最终的收益也正如他们的预期。只有非均衡博弈或训练式学习（training learning）才能打破主观纳什均衡。

4.4 主体间纳什均衡

参与者关于博弈的思维模型可能并不客观真实。此外，在主观纳什均衡和客观纳什均衡之间还有其他可能性。如果参与者的思维模型相同，就会出现中间情况，我们称之为主体间纳什均衡。这就是博弈的主观纳什均衡，其中M 1 =M 2 。前面的例子表明主观纳什均衡既未必是客观纳什均衡，也未必是主体间纳什均衡。但是，所有主体间纳什均衡必然是主观纳什均衡。

同样，所有客观纳什均衡也是主体间纳什均衡，但并不是每个主体间纳什均衡都是客观纳什均衡。客观纳什均衡是一个策略对，任何参与者都不能单方面提高客观收益。在参与者相信客观真实模型的客观纳什均衡中，主观纳什均衡就是主体间纳什均衡（因为他们相信同一个真实的模型）。

综上所述，我们得出如下结论：任何客观纳什均衡都是主体间纳什均衡，任何主体间纳什均衡都是主观纳什均衡。这可以重新表述为：

客观纳什均衡⊂主体间纳什均衡⊂主观纳什均衡

但是，如上所示，反向子集未必成立。

4.5 主观纳什均衡下的学习

鉴于参与者关于博弈的思维模型也许并不客观真实，我们假设参与者只能通过两种方式获得关于客观博弈的信息。首先，事后收到的实际收益可能不是事前预期的收益：

对于参与者1，Π 1 （s）≠M 1 （s）；对参与者2也一样。

参与者发现其博弈模型有误的第二种方法是，另一位参与者（或其他参与者之一）采取了令人意外的行动。假设某个参与者，比如参与者1认为s 2 是参与者2对其策略选择t 1 的最佳反应，但参与者2选择了s′ 2 ，且

M 11 （t 1 ，s 2 ）＞M 11 （t 1 ，s′ 2 ）

于是从参与者1的角度看，参与者2选择s 2 对自己更有利，但他不会这样选择。这让参与者1有理由相信，他和参与者2看到的是关于博弈的不同思维模型，也就是说，大家对双方的互动有不同看法。

显然，如果无法根据参与者关于博弈的思维模型观察或推断其他参与者的行为，预期就不会出错，相应地，也就不会有进一步学习的激励。到目前为止，我们只考虑所有参与者都能观察到并记住每个参与者的博弈历史这一情形。

得到一个意外的收益参数可以诱导参数学习，而看到其他参与者选择令人意外的行为则可以诱导模型学习。这不是绝对的区别，因为某些参数的变化会改变参与者关于博弈（也就是发生什么类型的互动）的思维模型，譬如，我是在参与囚徒困境博弈还是协调博弈，等等？因此，意外收益可以促成参数学习和模型学习（Denzau and North，1994）。

4.6 短视式学习

短视式或者经验式学习就是简单的试错。人们做出一个自认为是最佳回应的选择，但现实显示的收益并非预期收益。预期出错可能会导致信念发生改变（改变思维模型）。

正如上文提到的，最简单的学习是单一参数学习，它基于获得收益的实际经验，这一经验与参与者关于博弈的主观思维模型有所不同。因此，如果对于某个参与者，比如参与者1，在博弈的某个回合中，有

Π 11 （s O ）≠ M 11 （s O ）

那么给定各参与者关于博弈的思维模型，参与者1获得了意外的收益。由于这一预期出错，参与者有必要更新他们的思维模型，以纳入这种经验式学习。

在阐述了从主观纳什均衡到主体间纳什均衡这一学习路径的正式模型之后，我们将给出一处修正，说明为什么在大多数“现实”条件下，主体间纳什均衡是比客观纳什均衡更可取的路径选项。我们这里介绍的修正模型受启发于弗里德里希·哈耶克在1945年的著名文章《知识在社会中的运用》中提出的论点。哈耶克（1945，第519页）敏锐地指出：

理性经济秩序问题的特殊性恰恰由这样一个事实决定，即我们必须利用的情境知识（Knowledge of the Circumstances），从来不以集中或综合的形式存在，它们仅仅是所有独立个体拥有的既不完备又经常矛盾的分散知识。

哈耶克的上述引文强调的是，虽然在理想世界中，客观纳什均衡似乎是学习过程的理想终点，但是，当我们将这些想法应用于现实世界时，就会遇到一个问题。不过，正如哈耶克（1945，第530页）进一步阐明的：

因此，如果我们能够证明，倘若某个人知道所有事实（正如我们假设这些事实呈现给某位有敏锐观察力的经济学家），就能单独确定解决方案，但这样并不能解决上述问题；要解决这些问题，我们必须说明，如何通过只拥有部分知识的每个人的互动来产生解决方案。假设所有知识都提供给一个人就像我们假设所有知识都提供给负责解释的经济学家，这相当于假设问题不存在，并忽略了现实世界中所有显著而又重要的事物。

在现实世界中，人们很少知道自己在参与什么博弈，也不知道实际收益是多少。因此，在非博弈的单独决策（non-game single decision）情境下，参与者无法确认自己是否已经做出“最大化”选择。倘若博弈策略与收益之间的对应关系是非线性的，则尤其如此。假如永远无法确定客观真实的情境模型，该怎么办？我们认为，随着时间的推移，参与者可以通过不断的互动了解更多关于真实博弈的信息。当然，前提是参与者愿意放弃那些始终不能实现预期收益，甚至总是导致亏损的旧思维模型。

综上所述，当所有参与者对博弈没有共同认知时，主体间纳什均衡似乎是观察博弈互动更有用的方式。事实上，主体间纳什均衡比客观纳什均衡更有助于理解这种情况下的人类行为。完全信息或基于客观纳什均衡的思维模型成本太高，而且是不必要的，无助于做出正确决策；另外，在大多数“现实世界”或“正常”条件下（系统在“稳态”参数下运行，也即在“控制范围”内），我们没有必要防范大多数形式的风险。因此，我们不需要完美的信息以做出正确选择，而是需要合理（或至少没有严重缺陷）的主体间共有思维模型。不过，渐进的改善是不够的。思维方式的重大转变是改变做事方式的必要条件。事实上，正如戴明（1994，2000）所言，思维方式的创新对于从根本上提高生产率至关重要。

为了说明我们在这个修正模型中提出的主张，可以拓展我们的博弈理论。这一次，我们假定两个博弈者对互动持有截然不同的看法。表3说明了参与者可以达到主观纳什均衡的策略。我们还假设参与者可以相互讨论其想法，并就博弈达成共同看法（主体间纳什均衡），如表4所示，但这仍然不是客观真实的。此时，每个参与者得到的收益与他们的信念一致（或密切相关）。在这种情况下，双方似乎都没有充分的理由去更多地了解如何实现（并确认）他们对实际收益获得了客观真实（百分之百准确）的理解。如果达不到这样的均衡，或者无法确认大家已经达到这个均衡，那么任何参与者都无法发现其信念在客观上是错误的。

博弈的客观纳什均衡如表3所示。正如我们在这些博弈矩阵中看到的，追求客观纳什均衡策略不会给参与者带来更多收益。此时，进一步客观正确地理解博弈似乎没有什么价值。这是因为参与者已经对互动达成了策略上正确的理解，即使细节有误。进一步偏离均衡（相对于他们找到的主体间纳什均衡）的成本可能会超过收益，并转移参与者的注意力，使他们不能充分利用达成主体间纳什均衡而取得的成果。虽然我们不能断言这总是正确的，但在许多情况下，利用参与者通过进行主体间纳什均衡博弈来学习而产生的收益，似乎会超过力图对互动形成客观纳什均衡式理解而付出的成本。

表3 博弈的客观纳什均衡

表4 博弈的主体间纳什均衡

表3中的收益矩阵是实现{上，左}这一客观纳什均衡的“客观”思维模型。表4描绘了当参与者就博弈达成主体间协议时的思维模型。请注意，表4中的这个矩阵不同于客观思维模型。客观思维模型有一个纳什均衡，而表4中的思维模型有一个主体间纳什均衡{下，右}，其收益为{8，8}，与客观收益相同。因此，在这一主体间纳什均衡中，参与者没有发现任何错误。这是因为他们关于博弈的主观思维模型在主体间纳什均衡结果中得到了验证。虽然理论上，主体间纳什均衡模型中两个参与者的收益都略低于客观纳什均衡模型中的收益，但他们都不知道这一点。此外，学习客观纳什均衡需要参与者采取偏离均衡的行动，而正如他们认为的，这将带来比仅仅选择主体间纳什均衡更低的收益。

我们发现，由于客观纳什均衡要求两个参与者具有相同的思维模型，所以它也是主体间纳什均衡。不幸的是，无法证明主体间纳什均衡和客观纳什均衡之间存在这种直接关系。因为和其他主体间纳什均衡不同，由于没有进一步的学习可以引起偏离客观纳什均衡的行动，客观纳什均衡在主体间纳什均衡中显然是唯一的。主体间纳什均衡和客观纳什均衡之间的关系既不是纯代数的（algebraic），也不是数学的（mathematical）。相反，这是一种真实的关系。的确，所有客观纳什均衡都是主体间纳什均衡，且两者都是主观纳什均衡。但反之并不成立，某些客观纳什均衡显然不是主体间纳什均衡，如上例所示。

鉴于此，在上述情形下尝试学习的成本和收益都是不确定的。此时，两个参与者最终可能会形成主体间纳什均衡，继而无法从思维模型缺陷引发的错误中吸取教训。另外，高度不确定性意味着双方似乎都没有明确的理由修改他们对互动的看法。而且他们并不清楚，为了学习更多东西，采取偏离均衡的行动会带来多少成本或收益。简而言之，即使他们试图采取这样的行动，也可能没有什么可以进一步学习的。

我们关于共有思维模型的理论研究，对于在组织和跨组织环境中改进团队合作、建立信任和形成系统意识都有重要的应用价值。过去20年来，强烈的人际信任对经济绩效和生产率至关重要的观点在管理和领导力的讨论中得到了充分研究（Zak and Knack，2001；Zak，2017；Covey and Conant，2018）。也就是说，共有思维模型可以增强这类研究的理论严谨性，因为我们试图找到新的方法，以使人们，比如在虚拟环境中工作且物理上彼此隔离的队友能够建立更高层次的必要信任和同理心。目前，我们正在探索一种混合方法，将我们对共有思维模型的理论研究与“信任的神经科学”（或“神经经济学”）的实验研究相结合，帮助促进虚拟组织环境中的思维模型从“我”转向“我们”（从主观纳什均衡转向主体间纳什均衡）。