博弈论与供应链管理最新章节_李志国著

2.2 完全非完美信息博弈基础理论

2.2.1 完全非完美信息博弈与子博弈精炼解

本节对前文所述的动态博弈类型加以丰富。与完全且完美信息动态博弈相同,完全非完美信息动态博弈继续假设局中人的决策是序贯的,下一阶段开始前局中人可以观察到前面所有阶段局中人的行动。与完全且完美信息动态博弈不同,完全非完美信息博弈的某一阶段存在同时行动的情况,也就导致博弈中存在不完美信息,称此博弈的均衡解为子博弈精炼解,以例 2.2.1 为例。

例 2.2.1 假设一个有局中人 1,2,3,4 参与的以下类型的简单博弈,称其为完全非完美信息两阶段博弈(Two-stage Game),其博弈顺序如下:

(1)局中人 1 和 2 分别从自己的策略集 A ₁ 和 A ₂ 中选择行动 a ₁ 和 a ₂ ;

(2)局中人 3 和 4 观察到第一阶段局中人的选择( a ₁ , a ₂ ),然后同时从各自的策略集 A ₃ 和 A ₄ 中选择行动 a ₃ 和 a ₄ ;

(3)博弈结束,局中人收益实现,局中人收益为 u _i ( a ₁ , a ₂ , a ₃ , a ₄ ),其中 i = 1,2,3,4。

解决此类博弈的方法,仍使用了逆序求解的思路,如果局中人 1 和 2 预测到局中人 3和 4 在第二阶段的行动将由 ( a ₁ , a ₂ )和 ( a ₁ , a ₂ )给出,则局中人在第一阶段的问题就可以用如下的同时行动博弈表示:

(1)局中人 1 和 2 同时从各自的策略集 A ₁ 和 A ₂ 中选择行动 a ₁ 和 a ₂ ;

(2)局中人1和2的收益情况为 u _i ( a ₁ , a ₂ , ( a ₁ , a ₂ ), ( a ₁ , a ₂ )),其中 i = 1,2。

假定为上述博弈的唯一纳什均衡，则可称为这一两阶段博弈的子博弈精炼解。

塞尔滕(Selten)在 1965 年对子博弈精炼纳什均衡进行了准确界定,其定义如下:

定义如果局中人的策略在每一个子博弈中都构成了纳什均衡,则称纳什均衡是子博弈精炼的。

子博弈精炼纳什均衡是将纳什均衡的结果进一步精炼所得到的,即子博弈精炼纳什均衡一定是纳什均衡,而纳什均衡不一定是子博弈精炼纳什均衡。如第 2.1.2 小节所述,例 2.1.1 博弈的逆向归纳最优解为( )),但是子博弈精炼纳什均衡为( , R ₂ ( a ₁ ))。因为在这个博弈中, 为局中人 1 的一个策略,而仅仅为局中人 2 对局中人 1 所选择策略的最优反应,而 R ₂ ( a ₁ )才是局中人 2 的一个策略(即针对局中人 1的行动,局中人 2 的完整行动计划)。因此,策略组合( , R ₂ ( a ₁ ))在子博弈中构成了纳什均衡,为此博弈的子博弈精炼纳什均衡。

2.2.2 银行挤兑模型

完全非完美信息动态博弈的一个经典模型就是银行挤兑模型,将通过例 2.2.2 对此模型及其求解过程进行详细介绍。

例 2.2.2 银行挤兑模型假设了一个由两个投资者组成的博弈模型,两个投资者在博弈开始阶段每人存入银行一笔存款 D ,银行将这些存款投入一个长期项目。如果两个投资者均在该项目到期前向银行提款,两个投资者总共可收回 2 r (每人收回 r ),这里 D > r > D/ 2。如果两个投资者均在银行投资的项目到期后提款,则两投资者总共可取得 2 R (每人收回 R ,这里 R > D 。

因此,可将投资者从银行提款的日期分为 2 个:日期 1,在银行的投资项目到期之前;日期 2,投资项目到期之后。为了便于分析,假设不存在贴现。博弈过程及局中人收益如下:

(1)如果两个投资者都在日期 1 提款,则每人可得到 r ,博弈结束;

(2)如果只有一个投资者在日期 1 提款,他可得到 D ,另外一个人可得到 2 r - D ,博弈结束;

(3)如果两个人都不在日期 1 提款,则博弈进行到第二阶段,项目结束后投资者在日期 2 进行提款决策:如果两个投资者都在日期 2 提款,则每个人得到 R ,博弈结束;如果只有一个投资者在日期 2 提款,则他得到 2 R - D ,另外一个人得到 D ,博弈结束;如果在日期2 两个投资者都不提款,则银行向每个投资者返还 R ,博弈结束。

两个投资者在日期 1 和日期 2 的收益情况,可以用如下的两个矩阵式博弈表示。需注意,如果两个投资者在日期 1 都选择不提款,则进入下一个博弈阶段。

图 2.2.1 两个投资者在日期 1 和 2 的收益情况

根据逆序求解的思想,先考虑日期 2 的博弈矩阵。由于 R > D (所以有 2 R - D > R ),“提款”严格优于“不提款”,那么这一阶段的博弈存在唯一的纳什均衡,即两个投资者都提款,最终收益为( R , R )。由于不存在贴现,此处可以直接用这一收益替换日期 1 的矩阵式博弈双方都不提款时的情况,如图 2.2.2 所示。由于 r < D ,这一由两阶段博弈变形得到的单阶段博弈存在的两个纯策略纳什均衡:(1)两个投资者都提款,最终收益为( r , r );(2)两个投资者都不提款,最终收益为( R , R )。因此,最初的两阶段博弈就有了两个子博弈精炼解:(1)两个投资者都在日期1 提款,最终收益为( r , r );(2)两个投资者都在日期2提款,最终收益为( R , R )。

图 2.2.2 两个投资者在日期 1 的收益情况

前一种结果可以解释为对银行的一次挤兑。如果投资者 1 相信投资者 2 将在日期 1提款,则投资者 1 的最优反应也是去提款,即使他俩都等到日期 2 再去提款的话收益会更高。这里的银行挤兑博弈存在的均衡解不同于本书第 1 章讨论的囚徒困境,虽然两个博弈都存在一个低效率的纳什均衡,但在囚徒困境中这一均衡是唯一的,而在这里同时还存在另外一个有效率的均衡。这一模型并不能够预测何时会发生对银行的挤兑,却显示了挤兑会作为一个均衡结果出现。

2.2.3 博弈的扩展式表述

本文在第 1 章运用博弈的标准式表述和矩阵式表述对静态博弈进行了规范化的表述,此处引入博弈的第三种规范化表述方式——扩展式表述(也称博弈树),并用它来分析动态博弈。这里要注意,任何博弈既可以用标准式来表达也可以用扩展式来表达,并不是只有静态博弈用标准式表达,动态博弈用扩展式表达。回顾第 1 章中介绍的一个博弈的标准式表述应包含的要素:(1)博弈的局中人;(2)每一局中人可供选择的策略集;(3)与局中人可能选择的策略组合相对应的各个局中人的收益。下面给出博弈扩展式定义。

定义一个博弈的扩展式表述包括:

(1)博弈的局中人;

(2)每一局中人何时行动;轮到某一局中人行动时,可供其选择的策略;轮到某一参与者行动时,其所掌握的信息;

(3)局中人可能选择的每一策略组合所对应的各个局中人的收益。

以例 2.2.3 为例进行博弈扩展式表述的演示。

例 2.2.3 假设一个两人博弈,博弈的行动顺序如下:

(1)局中人 1 从策略集 A ₁ = ( L , R )中选择行动 a ₁ ;

(2)局中人 2 观察到 a ₁ 后从策略集 A ₂ = ( L′ , R′ )中选择行动 a ₂ ;

(3)博弈结束,局中人的收益分别为 u ₁ ( a ₁ , a ₂ )和 u ₂ ( a ₁ , a ₂ ),具体有 u ₁ ( L , L′ )= 3、 u ₂ ( L , L′ )= 1, u ₁ ( L , R′ )= 1、 u ₂ ( L , R′ )= 2, u ₁ ( R , L′ )= 2、 u ₂ ( R , L′ )= 1, u ₁ ( R , R′ )= 0、 u ₂ ( R , R′ )= 0。

图 2.2.3 博弈的扩展式表述演示图

观察图 2.2.3 可以发现,这一博弈树始于局中人 1 的一个决策节,这时 1 要从 L 和 R 中作出选择。如果局中人 1 选择 L ,其后就达到局中人 2 的一个决策节,这时 2 要从 L′ 和 R′ 中选择行动。同样地,如果局中人 1 选择 R ,其后就达到局中人 2 的另一个决策节,这时 2 要从 L′ 和 R′ 中选择行动,无论 2 选择哪一个,都将到达终节点也就是博弈结束点,且两个局中人分别得到终节点下面的收益。这就是博弈的扩展式表述。

2.2.4 信息集

信息集是伴随博弈的扩展式表述而出现的概念,其定义如下:

定义局中人的一个信息集指满足以下条件的决策节的集合:

(1)在此信息集中的每一个节都轮到该局中人行动;

(2)当博弈进行到达信息集中的一个节,应该行动的局中人并不知道到达了或者没有到达信息集中的哪一个节。

需注意,这一定义的第(2)部分意味着局中人在一个信息集中的每一个决策节都有着相同的可行行动策略集,否则该局中人就可以通过他所面临的不同的可行行动策略集推断目前到达哪一节了。博弈中的信息集如图 2.2.4 所示。

图 2.2.4 信息集演示

2.2.5 子博弈

2.2.3 小节介绍了博弈的扩展式表述,本节将对扩展式中的子博弈的相关内容进行介绍。子博弈为从博弈进行到的某一点开始,前面整个博弈的进行过程在所有参与者中都是共同知识,始于该点的其余部分的博弈就是原博弈的一个最小子博弈。下面我们对扩展式表述中的一般完全信息动态博弈中的子博弈进行定义。

定义扩展式博弈中的子博弈:

(1)始于单节信息集的决策节 n (但不包括博弈的第一个决策节);

(2)包含博弈树中 n 之下所有的决策节和终点节(但不在 n 下面的除外);

(3)如果博弈树中 n 之下有一个决策节 n′ ,则和 n′ 处于同一信息集的其他决策节也必须在 n 之下,从而也必须包含在子博弈中。

图 2.2.5 子博弈示意图