在此节中,本书对完全信息静态博弈的相关内容进行补充,介绍了重复剔除严格劣策略和混合策略。
重复剔除严格劣策略是除了代数方式求解、图形求解之外的另一种求均衡解的方法。在介绍此方法之前,需对“劣策略”进行定义,根据吉本斯的介绍,其定义如下:
定义 在一个标准式博弈 G = { S 1 ,…, S n ; u 1 ,…, u n }中,令 和 代表局中人 i 的两个可行策略。如果对其他局中人每一个可能的策略组合, i 选择 的收益都小于其选择 的收益,则称策略 相对于 是严格劣策略,即:
理性的局中人不会选择严格劣策略,因为选择此策略会导致局中人收益减少。理论上,重复剔除严格劣策略就能帮助局中人不断缩小最优策略存在的空间,其过程为:首先找出局中人的劣策略(假定存在的话),把这个劣策略剔除;然后再剔除剩下的新的博弈中的劣策略;最后继续这个过程,直到没有劣策略存在。如果最后剩下的策略组合是唯一的,那么这个唯一的策略组合就是“重复剔除占优均衡”,如果这样的解存在,则称该博弈是“重复剔除占优可解”的。
下面以“智猪博弈”为例,演示重复剔除严格劣策略寻求均衡解的过程,以帮助理解此方法。
例 1.3.1 智猪博弈(Boxed Pig Game)也是博弈论中的经典案例。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10 个单位的猪食进槽,但是谁按按钮就会先付出2 个单位的成本。按钮和猪食槽在相反位置,按按钮的猪要付出 2 个单位的成本,并且丧失了先到槽边进食的机会。大小猪不同行动带来的后果:若大猪行动、小猪等待,两只猪均获得 4 个单位的收益;若大猪等待、小猪行动,大猪获得 9 个单位的收益、小猪获得-1 个单位的收益;若大猪小猪同时行动,大猪获得 5 个单位的收益、小猪获得 1 个单位的收益;若大猪小猪均等待,收益均为 0 个单位。智猪博弈的双变量矩阵表如图 1.3.1 所示。
图 1.3.1 “智猪博弈”双变量矩阵表(a)
在这个博弈中,大猪的最优选择依赖于小猪的选择,但小猪的最优选择与大猪的选择无关。如果大猪知道小猪是理性的,大猪将选择“行动”。均衡是“大猪行动,小猪等待”。
剔除小猪劣策略后的双变量矩阵表如图 1.3.2 所示。
图 1.3.2 “智猪博弈”双变量矩阵表(b)
再剔除大猪劣策略后的双变量矩阵表如图 1.3.3 所示。
图 1.3.3 “智猪博弈”双变量矩阵表(c)
因此在智猪博弈中,策略组合(行动,等待)就是该博弈重复剔除严格劣策略后的结果。
“重复剔除严格劣策略”建立在理性局中人不会选择严格劣策略的原则上,此方法有以下两个缺陷:(1)使用此方法需要假定“局中人是理性的”是共同知识,即不仅要求“所有局中人是理性的”“所有局中人都知道所有局中人是理性的”,而且还要求“所有局中人都知道所有局中人都知道所有局中人是理性的”,如此反复,以至无穷(满足这些条件就满足“‘局中人是理性的’是共同知识”这一假设);(2)使用此方法所得的博弈结果有可能是不准确的,可能存在没有可剔除的严格劣策略的情况,如图 1.3.4 所示。
图 1.3.4 双变量矩阵表
纳什均衡是较重复剔除严格劣策略寻求均衡结果更为精确的概念,因为局中人的纳什均衡策略绝不会在剔除严格劣策略的过程中被剔除掉,而重复剔除严格劣策略后所留策略却不一定满足纳什均衡策略的条件。只有用重复剔除严格劣策略把除策略组合{ }外的所有的策略组合都剔除掉,剔除后所剩策略组合才是此博弈唯一的纳什均衡,如上智猪博弈中的策略组合(行动,等待)。
在 1.1.2 中给定纳什均衡定义的时候,把 S i 定义为局中人 i 可行的策略集,并对任意局中人 i , 是针对另外 n -1 个局中人所选策略的最优反应。但是在某些博弈中,不存在纯策略纳什均衡,以例 1.3.2 为例。
例 1.3.2 假设一个“猜硬币”的零和博弈,假设每个局中人拿一枚硬币,其策略集都是{正,反},每人选择是出正面向上还是背面向上,收益结果为:若两枚硬币相同面,则局中人 2 赢走局中人 1 的硬币;如果两枚硬币不同面,局中人 1 赢得局中人 2 的硬币。“猜硬币”的收益矩阵如图 1.3.5 所示。
图 1.3.5 “猜硬币”双变量矩阵表
在例 1.3.2 的博弈中,如果两个局中人选择的策略一致,那么局中人 2 渴望改变策略。同理,如果两个人选择的策略不一致,那么局中人 1 渴望改变策略。在博弈中,一旦每个局中人去猜测其他局中人的策略选择,此时局中人的最优行为是不确定的,博弈的结果必然包含不确定性,因此就不存在纳什均衡,称一个局中人对其他局中人行为的不确定性为混合策略。规范的表述为,局中人 i 的混合策略是指其策略集 S i 中的一些或全部策略呈概率分布,而称 S i 中的每一个策略为 i 的纯策略。
定义 对标准式博弈 G = { S 1 ,…, S n ; u 1 ,…, u n },假设 S i = { s i 1 ,…, s iK },则局中人 i 的一个混合策略是一个概率分布( p i 1 ,…, p iK ),其中 p ik 表示局中人 i 选择策略 s ik 的概率,对所有 k = 1,…, K ,有 0≤ p ik ≤1 且 p i 1+…+ p iK = 1。
为了进一步理解混合策略和纯策略的区别与联系,现假设一个简单的两人博弈。假设局中人 1 有两个可选的策略 S 1 = {上、下},局中人 2 有三个可选策略 S 2 = {左、中、右}。在该博弈中,左、中、右就是局中人 2 的三个纯策略,假设其概率分布为( q , r ,1- q - r ),即 q 表示局中人 2 选择左的概率, r 表示选择中的概率,1- q - r 表示选择右的概率,且满足 0≤ q ≤1、0 ≤ r ≤1、0 ≤ q + r ≤1。在此博弈中,混合策略 表示局中人2 出左、中、右的概率相同,而 表示出左、中的概率相同,但绝不可能出右。需要注意,局中人的一个纯策略只是混合策略的一种特例,比如局中人 2 只出左的纯策略可以表示为混合策略(1,0,0)。
另外在重复剔除严格劣策略中提到,如果 s i 为严格劣策略,那么局中人 i 不可能针对其他局中人的策略选择 s i 作为最优反应策略。根据混合策略的思想,可以证明其逆命题:如果局中人 i 针对其他局中人的策略绝不可能选择 s i 作为其最优反应策略,则一定存在另一个优于 s i 的策略可供局中人 i 选择。