博弈论的诡计：日常生活中的博弈策略最新章节_王春永著

背叛的诱惑无法抵挡

在苏联时期，有这样一个流传很久的笑话。

在斯大林时代，有一位乐队指挥坐火车前往下一个演出地点。正当他在车上翻看当晚要指挥演奏的作品乐谱时，两名克格勃走过来，把他当作间谍逮捕了：他们以为那乐谱是某种密码。这位乐队指挥争辩说，那只是柴可夫斯基的小提琴协奏曲，但无济于事。

在乐队指挥被投入牢房的第二天，审问者自鸣得意地走进来说：“我看你最好老实招了，我们已经抓住你的同伙柴可夫斯基了，他这会儿正向我们招供呢。如果再不招就枪毙了你。如果交代了，只判你十年。”

笑过之后，每个人都会思考其中所蕴含的东西。从博弈论角度看，克格勃们的花招，是想运用囚徒困境理论布局，使乐队指挥被迫选择招供，达到自己的目的。

那么什么是囚徒困境呢？

1950年，担任斯坦福大学客座教授的数学家塔克（Tucker），给一些心理学家讲演当时数学家们正在研究的完全信息静态博弈问题。为了更形象地说明博弈过程，他用两个犯罪嫌疑人的故事构造了一个博弈模型，即囚徒困境（prisoner's dilemma）。

这一博弈设计具体是这样的：共同作案偷窃的犯罪嫌疑人甲和乙被带进警察局。警方对两人实行隔离关押和审讯，他们彼此无法知道对方是招供还是抵赖。

警方怀疑他们作案，但手中并没有掌握确凿证据，于是明确地分别告知他们：对他们犯罪事实的认定及相应的量刑，完全取决于他们自己的供认。如果其中一方与警方合作，招供所做违法之事，而对方抵赖，招供方将不受重刑，无罪释放，另一方则会被判重刑十年；如果双方都与警方合作选择招供，将各被判刑五年；而如果双方均不认罪，因为警察找不到其他证明他们违法的证据，则两人都无罪释放。

他们面临的选择和带来的后果组合可以用表2-1来表示。

表2-1 囚徒困境博弈

哪一种选择对犯罪嫌疑人更有利呢？

从表2-1中我们可以知道：每个犯罪嫌疑人都有两种可供选择的策略：供认或抵赖。如果甲选择抵赖，那么就可能出现两种情况：如果乙选择招供，那么甲将被加重惩罚，判刑十年，乙则无罪释放；如果乙也同样选择抵赖，那么两个都将因证据不足而被释放。很显然，第二种结果对于两个人都最有利。但是，因为两名嫌疑人不在同一间囚室里，合作难以顺利进行。

因为彼此都不知道对方的想法，最理性的博弈结果，就是双方均选择招供。他们的策略，我们可以称为优势策略。如果所有参与人都有优势策略，那么博弈将在所有参与人的优势策略基础上达到均衡，这种均衡称为优势策略均衡。

在囚徒困境中“甲招供，乙招供”的优势策略均衡中，不论所有其他参与人选择什么策略，一个参与人的优势策略都是他的最优策略。不管甲乙两人谁招供，都将得到减轻惩罚的结果：如果甲招供了，乙抵赖，甲将免于惩罚；如果乙也招供了，那么罪名各担一半，从甲个人看来，也减轻了惩罚。甲乙互换位置，结果依然是一样。

显然，不管所有其他参与人选择什么策略，这一策略一定是该参与人的优势策略。

与优势策略相对应，劣势策略则是指在博弈中，不论其他参与人采取什么策略，某参与人可能采取的策略中，对自己不利的策略。劣势策略是我们日常生活中应该避免的。

有一个要注意的问题是，采用优势策略得到的最坏结果，不一定比采用其他策略得到的最佳结果要好，这是很多博弈论普及书中容易出错的地方。正确的理解是，你在采用优势策略时，无论对方采取任何策略，总能够显示出优势。

由于囚徒困境的模型是如此有趣和简洁，不仅给人们留下了深刻的印象，而且不胫而走，迅速成为谈论和研究的博弈模型。

在囚徒困境中，均衡点是建立在两个囚徒非合作的基础上的，并且两者的非合作还可以获得一定的利益（从宽惩罚），如果没有这一利益条件，这个严格优势策略也就不复存在。

囚徒困境是非零和博弈最具代表性的一个模型，由它还引申出更多有趣的故事和理论。