博弈论与供应链管理最新章节_李志国著

1.1 基础理论

1.1.1 完全信息静态博弈定义及规范表示

根据吉本斯给出的完全信息静态博弈的定义,本书总结了完全信息静态博弈需要具备的条件以及其博弈的规范描述方式。

定义完全信息静态博弈中,“完全信息”指每个局中人的可行策略集和收益集都是所有局中人的共同知识,“静态”指每个局中人在选择自己的策略时不知道其他局中人选择的策略,也就是同时行动。因此,完全信息静态博弈需要具备以下条件:

(1)至少有两个局中人;

(2)所有局中人都知道自己和其他人的行动集合、收益函数集合以及行动如何影响结果;

(3)所有局中人都是理性的且都知道自己和其他局中人对结果的偏好。

其中,关于“共同知识”的详细介绍及正式定义可以参考奥曼和布兰登布格尔的文章,而对“局中人策略”的定义如下。

定义局中人的一个策略是关于行动的一个完整计划,它明确了局中人在可能会遇到的每一种情况下对可行行动的选择。

一个博弈通常有三种规范的表示方法,即:标准式、矩阵式和扩展式。下文将对三种表述方式进行简单介绍,并分别用三种表述方式对一个完全信息静态博弈进行表述。

标准式

博弈的标准式表述应包括三个要素:(1)博弈的局中人;(2)每一个局中人可供选择的策略集;(3)针对所有局中人可能选择的策略组合,每一个局中人获得的收益。即在一个 n 人博弈的标准式表述中,各局中人的策略空间为{ S ₁ ,…, S _n },收益函数为{ u ₁ ,…, u _n },用 G = { S ₁ ,…, S _n ; u ₁ ,…, u _n }来表示此博弈。

矩阵式

矩阵式表述比较抽象,为了便于理解,以博弈论中的经典案例——囚徒困境(Prisoner's Dilemma)为例。囚徒困境假设了两个被捕且受到指控的犯罪嫌疑人,除非其中一人招认犯罪,否则警方并无充足证据将其按罪判刑。警方将两名犯罪嫌疑人关入不同的审讯室,并对他们说明不同行动所带来的后果:若两人都不坦白,将均被判入狱 1 个月;若两人都坦白,将均被判入狱 6 个月;若一人坦白一人拒不坦白,坦白一方会被立即释放,另一人则被判入狱 9 个月。其矩阵式表述如图 1.1.1 所示。

图 1.1.1 “囚徒困境”的矩阵式表述

如同矩阵一样,行和列分别代表两个局中人及其策略,矩阵表可由任意多的行和列组成,每一行(列)分别代表对应局中人的策略。其中每个单元格中有两个数字,分别代表两个局中人选择相应策略下的收益,因此也称为“双变量矩阵表”。一般地,横行代表的局中人(此例中的囚徒 2)的收益位于两个数字的前面,纵列代表的局中人(此例中的囚徒 1)的收益置于其后。例如:假设一个两人博弈由局中人 1 和局中人 2 组成,其中每个局中人有有限数量的策略,假设局中人 1 的策略集为: S ₁ = { S ₁₁ , S ₁₂ , S ₁₃ },假设局中人 2的策略集为: S ₂ = { S ₂₁ , S ₂₂ },两个局中人同时从其策略集中选择策略,此博弈的矩阵式表述如图 1.1.2 所示。

图 1.1.2 博弈的矩阵式表述

扩展式

关于扩展式的定义及表述方式将在第 2 章中进行详细介绍。

1.1.2 纳什均衡的定义

完全信息静态博弈的均衡结果被称为纳什均衡。以收益最大化为目标的局中人所选择的策略是对其他局中人所选最优策略的最优反应,此时所有局中人的收益都是最优的,因此没有局中人会偏离这个最优结果,形成一种“战略稳定”或“自动实施”的状态,此种状态被称为“纳什均衡”,它是所有局中人最优策略所组成的一个稳定的策略集合。

定义在 n 个局中人的标准式博弈 G ={ S ₁ ,…, S _n ; u ₁ ,…, u _n }中,如果策略组合{ ,…, }满足对每一个局中人是他针对其他 n -1 个局中人所选策略{ , }的最优反应策略,策略组合{ }所组成的策略集就是该博弈的一个纳什均衡。简而言之,纳什均衡是一个策略组合,处于均衡状态的每个局中人所选择的策略都是针对其他局中人选择策略的最优反应,即:

其中,不等式(1.1.1)对所有 S _i 中的 s _i 都是成立的,可以理解为是以下最优化问题的解:

寻找完全信息静态博弈均衡结果最直接的方法就是检验每一个策略组合是否符合不等式(1.1.1)的条件。例如在一个由两个局中人( i , j )组成的博弈中,对局中人的每一个可选策略,确定局中人 j 相应的最优策略的方法,就是对比这个策略组合是否满足不等式(1.1.1)的条件,若满足,则这个策略组合就是此博弈的纳什均衡。

囚徒困境中,由于局中人都是理性的、追求收益最大化的,因此两个局中人均不想入狱。沿用Brandenburger的方法,首先考虑囚徒 1 的选择,他面对的问题是:如果囚徒 2 坦白的话,自己坦白判 6 个月,沉默判 9 个月,那么当囚徒 2 选择坦白时,自己选择坦白比选择沉默好;如果囚徒 2 沉默,自己坦白会被立即释放,沉默则判 1 个月,当囚徒 2 沉默时,囚徒 1 选择坦白仍比沉默好。对囚徒 2 的分析亦如此。因此,不论对方如何选择,囚徒 1或囚徒 2 的最优选择都是坦白,此时结果{坦白,坦白}呈“战略稳定”或“自动选择”状态,那么策略组合{坦白,坦白}就是该博弈的纳什均衡。