博弈论与供应链管理最新章节_李志国著

2.1 完全且完美信息动态博弈基础理论

2.1.1 完全且完美信息动态博弈

完全且完美信息动态博弈的主要特点是:(1)局中人的行动是顺序发生的;(2)下一步行动选择之前,所有以前的行动都可以被观察到;(3)每一可能的行动组合下局中人的收益都是共同知识。以一个简单的完全且完美信息动态博弈——“手雷博弈”为例,帮助理解并体会此类博弈的主要思想。

例 2.1.1 在“手雷博弈”中,假设有两个局中人:首先,局中人 1 选择是否支付 1 000美元给局中人 2;其次,局中人 2 观察局中人 1 的选择,然后决定是否引爆一颗手雷将两个人一起炸死。假设局中人 2 威胁局中人 1,如果他不付 1 000 美元就引爆手雷,如果局中人 1 相信这一威胁,他的最优反应是支付 1 000 美元:但局中人 1 认为局中人 2 的威胁不可置信,因为即使给局中人 2 一个机会,让他把威胁付诸实施,局中人 2 也不会选择去实施它,考虑到局中人 2 的威胁不可置信,局中人 1 就会选择一分钱不付。局中人的决策顺序如下:

(1)局中人 1 从可行集 A ₁ 中选择一个行动 a ₁ ;

(2)局中人 2 观察到 a ₁ 之后,从其可行集 A ₂ 中选择一个行动 a ₂ ;

(3)博弈结束,收益实现,两局中人的收益分别为 u ₁ ( a ₁ , a ₂ )和 u ₂ ( a ₁ , a ₂ )。

许多现实的经济问题都符合此类博弈的特征,例如后文将介绍的斯塔克尔伯格双头垄断模型、里昂惕夫公会企业工资和就业模型。

2.1.2 逆向归纳法

“逆向归纳法”或“逆序求解法”(Backwards Induction)是寻求动态博弈均衡解的可靠方法,其核心思想是根据局中人的行动顺序,逆向推导求解。沿用例 2.1.1,由于决策顺序为局中人 1 先行动,局中人 2 后行动,因此要先求局中人 2 的最优行动策略。在博弈第二步局中人 2 行动时,由于局中人 1 已选择其行动 a ₁ ,局中人 2 所面临的决策问题可用式(2.1.1)表示:

假定对 A ₁ 中的每一个 a ₁ ,局中人 2 最优化问题的解是唯一的,用 R ₂ ( a ₁ )表示此解,即 R ₂ ( a ₁ )表示公式(2.1.1)的解,称“ R ₂ ( a ₁ )就是局中人 2 对局中人 1 行动( a ₁ )的最优反应”。

由于在一个完全且完美信息动态博弈中,局中人的收益是共同知识,因此,局中人 1能够和局中人 2 一样解出公式(2.1.1),即局中人 1 可以预料到局中人 2 对 1 每一个可能行动 a ₁ 所作出的最优反应 R ₂ ( a ₁ )。如此,先行动的局中人 1 需解决的问题可归结为公式(2.1.2):

假定局中人 1 的最优化问题式(2.1.2)同样有唯一解,用表示,如此,可称( , R ₂ ( ))是博弈例 2.1.1 的逆向归纳解。需注意,逆向归纳解不含有不可置信的威胁。具体而言,局中人 1 能预测到“局中人 2 将对 1 可能选择的任何行动 a ₁ 所做出最优反应 R ₂ ( a ₁ )”,这一预测排除了局中人 2 不可置信的威胁,即局中人 2 不可能在其行动时做出不符合自身利益最大化的反应。

2.1.3 斯塔克尔伯格博弈模型

斯塔克尔伯格博弈模型(Stackelberg Model of Duopoly)是由斯塔克尔伯格在 20 世纪30 年代提出的一个双头垄断动态模型,是古诺双头垄断模型的变形(古诺模型中企业是同时行动的,不同于这里的序贯行动),是典型的完全且完美信息动态博弈。例 2.1.2 将介绍斯塔克尔伯格博弈模型的一种最简单的情形,通过对经典模型的介绍来帮助理解动态博弈逆序求解的过程。

例 2.1.2 根据斯塔克尔伯格的假定,博弈中共有两个局中人——企业 1 和企业 2,模型中的企业进行产量决策,用 q _i ( i = 1,2)表示两家企业决策的产量。假设两企业的边际成本均为 c ,除此之外无其他任何成本。局中人的决策顺序如下:

(1)企业 1 首先决策其产量 q ₁ ≥0;

(2)企业 2 观察到企业 1 的决策 q ₁ 后,确定其产量 q ₂ ≥0;

(3)两企业产品出清,收益实现。

企业 i 的利润函数如公式(2.1.3)所示:

其中, P ( Q )= a - Q 与例 1.2.1 相同,是市场上的总产品 Q = q ₁ + q ₂ 的出清价格。

根据逆序求解的思想,应首先计算企业 2 对企业 1 任意产量的最优反应,用 R ₂ ( q ₁ )表示, R ₂ ( q ₁ )应满足:

由公式(2.1.4)的一阶条件可得:

需注意,若假定 q ₁ < a - c ,对比第 1.2.1 节中的古诺博弈所得出的 R ₂ ( q ₁ )与公式(2.1.5)完全一致,但两式所表达的意义不同。此处的 R ₂ ( q ₁ )是企业 2 对已观测到企业 1 的产量 q ₁ 的真实反应,而在古诺博弈中, R ₂ ( q ₁ )是企业 2 对假定的企业 1 的产量的最优反应。

由于局中人的收益是共同知识,即企业 1 也能够像企业 2 一样解出企业 2 的最优反应 R ₂ ( q ₁ ),且企业 2 知道企业 1 能解出 R ₂ ( q ₁ ),企业 1 就可以预测到其选择 q ₁ 后企业 2根据 R ₂ ( q ₁ )所选择的产量。那么,在博弈的第一步中,企业 1 的最优化问题就可以表示为公式(2.1.6):

由上式一阶条件可得企业 1 的最优决策为:

将公式(2.1.7)代入公式(2.1.5)中可得企业 2 的最优决策为:

这就是斯塔克尔伯格双头垄断博弈的逆向归纳解。

此外,在动态博弈中,局中人的行动是有先后顺序的,通常将先行动的局中人称为博弈的领导者或主者,将后行动的局中人称为博弈的追随者或从者。比如在美国汽车产业发展史中的某些阶段,通用汽车就扮演过这种领导者的角色。在上述的斯塔克尔伯格博弈模型中,企业 1 为博弈的主者,企业 2 为博弈的从者。

2.1.4 信息陷阱

回顾例1.2.1 所介绍的古诺双头垄断模型的均衡解,两企业的产量均为 ,而斯塔克尔伯格博弈中逆向归纳解的总产量为 ,比古诺博弈中纳什均衡的总产量要高。在市场潜力 a 相同的情况下,斯塔克尔伯格博弈相应的市场出清价格会比较低。在斯塔克尔伯格博弈中,企业1完全可以选择古诺均衡产量 ,这时企业 2的最优反应同样是古诺均衡的产量。也就是说在斯塔克尔伯格博弈中,企业 1完全可以使利润水平达到古诺均衡的水平,却选择了其他产量,那么企业 1 在斯塔克尔伯格博弈中的利润一定高于其在古诺博弈中的利润。但斯塔克尔伯格博弈中的市场出清价格降低了,那么和古诺博弈的结果相比,在斯塔克尔伯格博弈中,企业 1 的利润增加必定意味着企业 2 收益的减少。

和古诺博弈相比,斯塔克尔伯格博弈中企业 2 利润水平的降低,揭示了单人决策问题和多人决策问题的一个重要的不同之处。在单人决策中,拥有更多的信息绝不会对决策制定者不利,然而在多人决策的博弈中,了解更多的信息(或者更为精确地说,是让其他局中人知道一个人掌握了更多的信息)反而会让其中一个局中人的收益受损。

在斯塔克尔伯格博弈中,存在差异的信息是企业的产量:企业 2 知道 q ₁ ,更重要的是企业 1 知道企业 2 知道 q ₁ 。为看清楚这一信息的影响,本文把上述序贯行动的博弈稍作修改:假设企业 1 先选择 q ₁ ,之后企业 2 选择 q ₂ ,但企业 2 在决策前并没有观察到 q ₁ 。如果企业2 确信企业1 会选择它的斯塔克尔伯格产量 , 则企业2 的最优反应仍是。但是,如果企业 1 预料到企业 2 将持有这一推断并选择这一产量,企业 1决策时就会倾向于决策它对的最优反应,即为 ,而不愿意去选择斯塔克尔伯格产量 ,如此,企业2 就不会相信企业 1 会选择斯塔克尔伯格产量。从而这一修改过的序贯博弈的唯一均衡解就是两个企业都选择产量 ,这正是同时行动的古诺博弈中的纳什均衡 ,换言之,使企业 1 知道企业 2 知道 q ₁ 会给企业 2 带来损失。

2.1.5 里昂惕夫模型

为更好地理解完全且完美信息动态博弈及其求解过程,此处举例除斯塔克尔伯格博弈模型外另一个经典的完全且完美信息动态博弈——里昂惕夫模型,此模型由里昂惕夫(Leontief)在 1946 年提出。里昂惕夫模型讨论了一个企业和一个垄断的工会组织(即作为企业唯一的劳动力供给者)之间的博弈。

例 2.1.3 里昂惕夫模型假设工会对工资水平说一不二,但企业可以自主决定就业人数。工会的效用函数为 U ( w , L ),其中 w 为工会向企业开出的工资水平, L 为就业人数。假定 U ( w , L )是 w 和 L 的增函数,企业的利润函数为 π ( w , L )= R ( L )- wL ,其中 R ( L )为企业雇用的 L 名工人为企业创造的收入,假定 R ( L )是增函数,并且为凹函数。此博弈的时间顺序如下:

(1)首先工会决定工资水平 w ;

(2)然后企业观察到 w 决定雇用员工人数 L ;

(3)博弈结束,工会和企业的收益实现,分别为 U ( w , L )和 π ( w , L )。

因为没有假定 U ( w , L )和 π ( w , L )的具体表达式,从而无法明确解出该博弈的均衡解,但此处仍可以就解的主要特征进行讨论,帮助理解完全且完美信息动态博弈的求解思路。

首先,对工会在第一阶段任意一个工资水平 w ,此处能够分析出在第二阶段企业最优反应为 L ^* ( w )。即给定 w ,企业选择的劳动力水平 L ^* ( w )应满足公式(2.1.9):

由一阶条件可得:

为保证一阶条件有解,现假设 R′ (0)=∞,且 R′ (∞)= 0,如图 2.1.1 所示,其中斜率表工资水平 w 。

图2.1.2(a)把 L ^* ( w )表示为 w 的函数，并表示出它和企业每条等利润线交于其最高点，若令 L 保持不变, w 降低时企业的利润就会提高，于是较低的等利润曲线代表着较高的利润水平。图 2.1.2(b)描述了工会的无差异曲线，若令 L 不变，当 w 提高时工会的效用就会增加，于是较高的无差异曲线代表了工会较高的效用水平。

图 2.1.1 企业雇用 L 名工人的收入

图 2.1.2 企业等利润线和工会无差异曲线

根据逆序求解的思想,下面将分析第一阶段工会的问题。由于所有局中人的收益是共同知识,因此工会和企业一样可以解出企业在第二阶段的问题,基于此,工会就可预测到如果它要求的工资水平为 w ₁ ,企业最优反应的就业人数将会是 L ^* ( w ₁ )。那么处于第一阶段的工会所面临的问题就可以表示为公式(2.1.11):

具体表现在图 2.1.2(b)的无差异曲线上就是,工会希望选择一个工资水平 w ,这个工资水平能使 U ( w , L ^* ( w ))处于可能达到的最高的无差异曲线上,这一最优化问题的解为 ^* w ,如此,可使工会位于 U ( w ^* , L ^* ( w ))的无差异曲线与 L ^* ( w )相切处,如图 2.1.3 所示,最优的工资水平 w ^* 正好位于切点上。此时,( w ^* , L ^* ( w ))就是这一博弈的逆向归纳解。

图 2.1.3 就业人数最优反应与工会无差异曲线相切