博弈论与供应链管理最新章节_李志国著

3.1 非完全信息静态博弈基础理论

3.1.1 静态贝叶斯博弈

非完全信息静态博弈(Static Games of Incomplete Information),又名静态贝叶斯博弈(Static Bayesian Games)。在非完全信息博弈中,每一局中人都确知自己的收益函数,但至少有一个局中人不能准确知道另一个局中人的收益函数,而是以概率知道。静态博弈是指“同时行动”,即每个局中人在其策略集中选择他/她的策略时并不知道其他人的选择,可以视作局中人同时选择自己的策略。在此用一个经典的例子——密封报价拍卖(Sealed-bid Auction)来帮助理解静态贝叶斯博弈的主要思想。密封报价拍卖是指所有参与拍卖的人都将其报价同时封存于信封中,报价最高的人将赢得拍卖的一种拍卖形式。在密封报价拍卖中:(1)每一位参与拍卖的局中人均知道自己对所售商品的估价,但却不知道任何其他局中人对商品的估价,局中人竞拍成功的收益为报价-估价,竞拍失败收益为0,即每位局中人均仅知道自己的收益,却不能确知其他局中人的收益;(2)每一位参与拍卖的局中人均将自己的报价放在密封的信封里上交,因而局中人的行动可以看作是同时的。

在一个非完全信息静态博弈中,引入虚拟的“自然”博弈方,可将非完全信息静态博弈转换为第 2 章中所介绍的完全非完美信息动态博弈,此过程被称为“海萨尼转换”。引入“自然”博弈方后,一个静态贝叶斯博弈的时间顺序如下:

(1)“自然”赋予 n 个局中人的类型向量 t = ( t ₁ ,…, t _n ),其中类型 t _i 属于可行类型集合 T _i ;

(2)“自然”告知局中人 i 自己的类型 t _i ,却不告诉其他局中人 i 的类型,也不把其他局中人的类型告诉 i 。用 t _-i = ( t ₁ ,…, t _i _-1 , t _i ₊₁ ,…, t _n )表示除 i 外其他局中人的类型,用 T _-i 表示 t _-i 所有可能的集合,用条件概率 p _i ( t _-i | t _i )表示局中人 i 在知道自己的类型是 t _i 的前提下对其他局中人类型 t _-i 的推断;

(3)局中人根据自己的推断同时选择行动,每一局中人 i 从可行策略集 A _i 中选择其策略 a _i ;

(4)局中人 i 的收益 u _i ( a ₁ ,…, a _n ; t _i )。

借助于第一步与第二步中虚构的参与者“自然”的行动,将一个非完全信息的博弈转换为非完美信息的博弈。“非完美信息”体现在进行第三步时,行动的各方不知道此前博弈进行的整个过程,因为在博弈的第二步“自然”告知了局中人 i 自己的类型,但并没有将其类型告诉给局中人 j ,在第三步局中人 j 选择行动时,就不知道博弈的整个过程。

根据第 1 章中对于完全信息静态博弈的标准式表述,加上非完全信息特有的类型与推断,就可以得到上述静态贝叶斯博弈的标准式表述。

定义一个 n 人静态贝叶斯博弈的标准式表述包括:局中人的行动空间表示为 A ₁ ,…, A _n ,局中人的类型空间 T ₁ ,…, T _n ,局中人的推断 p ₁ ,…, p _n 及其各自的收益函数 u ₁ ,…, u _n 。局中人 i 的类型 t _i 是局中人 i 的私人信息,为类型集 T _i 中的一个元素,它决定了局中人 i 的收益函数 u _i ( a ₁ ,…, a _n ; t _i )。局中人 i 的推断 p _i ( t _-i | t _i )描述了 i 在给定自己的类型 t _i 时,对其他 n -1 个局中人可能的类型 t _-i 的不确定性。将此博弈表示为:

G = { A ₁ ,…, A _n ; T ₁ ,…, T _n ; p ₁ ,…, p _n ; u ₁ ,…, u _n }.

除了标准式表述方式,通过引入“自然”博弈方,静态贝叶斯博弈还有另一种表述方式——扩展式表述,以例 3.1.1 为例进行展示,其扩展式表述如图 3.1.3 所示。

例 3.1.1 根据 1.1.1 小节,此博弈中共有两个理性的局中人:囚徒 1 和囚徒 2,两个局中人的策略及收益如图 3.1.1 所示。现假设囚徒 1 以 p 的概率是理性的,以 1- p 的概率是利他的,囚徒 2 总是理性的,若囚徒 1 为利他的,他认为坦白的效用等同于多坐 4 个月的牢。以上为共同知识。两位局中人分开进行决策,此时收益矩阵如图 3.1.2 所示。此博弈的扩展式表述如图 3.1.3 所示。

图 3.1.1 囚徒困境收益矩阵

图 3.1.2 囚徒困境收益矩阵

图 3.1.3 囚徒困境的扩展式表述

3.1.2 贝叶斯法则

贝叶斯博弈中经常涉及推断 p _i ( t _-i | t _i ),也称信念。由于在静态贝叶斯博弈中,局中人类型的先验概率分布 p ( t )是共同知识,因此,当“自然”告知局中人 i 的类型 t _i 时,局中人 i 可以根据贝叶斯法则计算出其他局中人类型的条件概率 p _i ( t _-i | t _i ),这个过程被称为“贝叶斯更新”,经贝叶斯更新后的概率被称为“后验概率”,表明了局中人 i 从其行动空间 A _i 中选择战略时对其他局中人类型的推断。

定义贝叶斯法则:

贝叶斯法则提供了 P ( B _i | A )的计算公式,即事件 A 已经发生后,事件 B _i 将会发生的概率。

例 3.1.2 以简化的斯宾塞(Spence)劳动市场博弈为例(此博弈的均衡解将会在第4.3 节中进行讨论),决策顺序如下:

(1)“自然”赋予员工能力 η 有高有低,其中 P ( η _H )= p , P ( η _L )= 1- p ;

(2)员工知道自己能力的高低,选择一个受教育的水平 e ( e ≥0),假设高能力的人都选择高的教育水平 e _H ,低能力的人以 θ 的概率选择高的教育水平 e _H ,以 1- θ 的概率选择低的教育水平 e _L ;

(3)企业能观测到员工的受教育水平(外在因素) e 的高低,但是不能直接观测到员工的能力(内在因素) η 的高低。

由贝叶斯公式，企业可以根据员工的受教育水平 e 来对其能力 η 进行推测，推测过程如下:

①由于“高能力的人都会选择较高的教育水平”: P ( e _H | η _H )= 1,且 P ( η _H | e _L )= 0、 P ( η _L | e _L )= 1,因此,一个低教育水平的人一定不是一个高能力的人,一个低教育水平的人一定是一个低能力的人。

②由于“低能力的人以 θ 的概率选择高的教育水平 e _H ,以 1- θ 的概率选择低的教育水平 e _L ”: P ( e _H | η _L )= θ , P ( e _L | η _L )= 1- θ 。

③由贝叶斯公式:

一个获得高学历(条件）的高能力的人的概率是:

一个获得高学历(条件）的低能力的人的概率是:

3.1.3 贝叶斯纳什均衡

静态贝叶斯博弈的均衡结果被称作“贝叶斯纳什均衡(Bayesian Nash Equilibrium,BNE)”。

定义贝叶斯纳什均衡的定义:在一个静态贝叶斯博弈 G = { A ₁ ,…, A _n ; T ₁ ,…, T _n ; p ₁ ,…, p _n ; u ₁ ,…, u _n }中,若每一局中人 i 对其类型集 T _i 中的每一满足

时,策略组合 s ^* = ( )是一个纯战略贝叶斯纳什均衡。此时,没有局中人愿意改变自己的策略,且每一局中人的策略都是其他局中人策略的最优反应。