第2章

囚徒困境

自愿坐牢的嫌疑人

背叛的诱惑无法抵挡

在苏联时期，有这样一个流传很久的笑话。

在斯大林时代，有一位乐队指挥坐火车前往下一个演出地点。正当他在车上翻看当晚要指挥演奏的作品乐谱时，两名克格勃走过来，把他当作间谍逮捕了：他们以为那乐谱是某种密码。这位乐队指挥争辩说，那只是柴可夫斯基的小提琴协奏曲，但无济于事。

在乐队指挥被投入牢房的第二天，审问者自鸣得意地走进来说：“我看你最好老实招了，我们已经抓住你的同伙柴可夫斯基了，他这会儿正向我们招供呢。如果再不招就枪毙了你。如果交代了，只判你十年。”

笑过之后，每个人都会思考其中所蕴含的东西。从博弈论角度看，克格勃们的花招，是想运用囚徒困境理论布局，使乐队指挥被迫选择招供，达到自己的目的。

那么什么是囚徒困境呢？

1950年，担任斯坦福大学客座教授的数学家塔克（Tucker），给一些心理学家讲演当时数学家们正在研究的完全信息静态博弈问题。为了更形象地说明博弈过程，他用两个犯罪嫌疑人的故事构造了一个博弈模型，即囚徒困境（prisoner's dilemma）。

这一博弈设计具体是这样的：共同作案偷窃的犯罪嫌疑人甲和乙被带进警察局。警方对两人实行隔离关押和审讯，他们彼此无法知道对方是招供还是抵赖。

警方怀疑他们作案，但手中并没有掌握确凿证据，于是明确地分别告知他们：对他们犯罪事实的认定及相应的量刑，完全取决于他们自己的供认。如果其中一方与警方合作，招供所做违法之事，而对方抵赖，招供方将不受重刑，无罪释放，另一方则会被判重刑十年；如果双方都与警方合作选择招供，将各被判刑五年；而如果双方均不认罪，因为警察找不到其他证明他们违法的证据，则两人都无罪释放。

他们面临的选择和带来的后果组合可以用表2-1来表示。

表2-1 囚徒困境博弈

哪一种选择对犯罪嫌疑人更有利呢？

从表2-1中我们可以知道：每个犯罪嫌疑人都有两种可供选择的策略：供认或抵赖。如果甲选择抵赖，那么就可能出现两种情况：如果乙选择招供，那么甲将被加重惩罚，判刑十年，乙则无罪释放；如果乙也同样选择抵赖，那么两个都将因证据不足而被释放。很显然，第二种结果对于两个人都最有利。但是，因为两名嫌疑人不在同一间囚室里，合作难以顺利进行。

因为彼此都不知道对方的想法，最理性的博弈结果，就是双方均选择招供。他们的策略，我们可以称为优势策略。如果所有参与人都有优势策略，那么博弈将在所有参与人的优势策略基础上达到均衡，这种均衡称为优势策略均衡。

在囚徒困境中“甲招供，乙招供”的优势策略均衡中，不论所有其他参与人选择什么策略，一个参与人的优势策略都是他的最优策略。不管甲乙两人谁招供，都将得到减轻惩罚的结果：如果甲招供了，乙抵赖，甲将免于惩罚；如果乙也招供了，那么罪名各担一半，从甲个人看来，也减轻了惩罚。甲乙互换位置，结果依然是一样。

显然，不管所有其他参与人选择什么策略，这一策略一定是该参与人的优势策略。

与优势策略相对应，劣势策略则是指在博弈中，不论其他参与人采取什么策略，某参与人可能采取的策略中，对自己不利的策略。劣势策略是我们日常生活中应该避免的。

有一个要注意的问题是，采用优势策略得到的最坏结果，不一定比采用其他策略得到的最佳结果要好，这是很多博弈论普及书中容易出错的地方。正确的理解是，你在采用优势策略时，无论对方采取任何策略，总能够显示出优势。

由于囚徒困境的模型是如此有趣和简洁，不仅给人们留下了深刻的印象，而且不胫而走，迅速成为谈论和研究的博弈模型。

在囚徒困境中，均衡点是建立在两个囚徒非合作的基础上的，并且两者的非合作还可以获得一定的利益（从宽惩罚），如果没有这一利益条件，这个严格优势策略也就不复存在。

囚徒困境是非零和博弈最具代表性的一个模型，由它还引申出更多有趣的故事和理论。

不背叛就会被淘汰

在刘慈欣的科幻小说《三体》中，有这样一个情节。

因为地球文明的位置被暴露，遵循“他人即是威胁”的黑暗森林法则行事的三体文明，向地球派出一个被称为“水滴”的宇宙探测器，并且不到一小时就摧毁了地球联合舰队。“自然选择”号执行舰长章北海成功逃离地球，另外四艘战舰前往追捕，结果这五艘战舰成为一批幸存者。

在逃脱过程中，他们的战舰离最近的目标星系NH558J2还有十几光年距离，离最终的可生存星球还有六万光年距离，而燃料和食物却无法支持这样的长途旅行。章北海要生存，只有消灭四艘追逐战舰并夺取其燃料和食物。

然而，就在章北海准备实施时，另一艘战舰“终极规律”号抢先向其他四艘战舰开了火。不过，其中的“蓝色空间”号抢先一步做好了防御，因此不仅躲过了攻击，而且反过来将另外四艘战舰消灭，成为这场残酷游戏的胜出者。其他四艘战舰上的能源和关键配件被取走，连船员的尸体都被转化成了食物！

人类在茫茫太空中对同胞发起攻击，并非是偏好使然，而是他们要服从一种被选择的纳什均衡。在章北海们的预期中，往往先假定别人绝对会发起攻击，因而为了自己的利益最大化，便选择率先攻击。

在面临有威胁的对手时，面临的选择有以下几个：

选择A——不攻击，灭亡；

选择B——攻击失败，灭亡；

选择C——攻击，生存。

在这些选择里面，如果选择攻击，会有生存的机会，而其他人也同样有这样几个选择。假定五艘战舰竞争一个生存的机会，对于其中一艘来说，只要它选择了攻击，而另外四艘选择不攻击，机会自然属于它；如果其他四艘也选择攻击，就需要一个附加的条件——它攻击得更早，防御得更好，这样才能得到仅有的生存机会。

所以，在这一博弈过程中，无论其他战舰做什么选择，“终极规律”号只有自己毫不犹豫地攻击，才会有机会生存，这是遵循我们上面所说的原则的。黑暗森林法则就是这样形成的。

在这个过程中，利害计算对每一个参与者都是不可缺少的。我们仅就五艘战舰的关系来看，可以看出上面情节中包含的囚徒困境基本精神——背叛。无论对方做出什么样的策略选择，背叛对方，都能够让自己获得收益，那么必然要选择背叛这一道路。

这个故事中，章北海们的思维方式，实际上揭示了一个形成囚徒困境的机制——担心自己成为傻瓜。而了解这种机制，恰恰可以提供减少自己在囚徒困境中的损失的策略。

它告诉我们，处于囚徒困境的时候，没有什么十全十美的好办法能让自己从困境中逃脱。不能获得利益，只能尽量做到自己不受侵害，正所谓“两害相权取其轻”。

这样的困境同样出现在现代政治中，不过形式有所不同。

“股神”沃伦·巴菲特曾经提出一个竞选筹资改革法案。他假定有一个狡猾的亿万富翁，愿意掏出十亿美元作为捐助来推动法案的通过。民主党和共和党都可以选择支持或不支持法案。如果双方都支持法案，该法案获得通过，两党都没有得到任何东西。如果一党支持而另一党不支持法案，该法案无法通过，则支持的一方获得十亿美元。如果双方都不支持法案，该法案搁浅，双方也都没有得到任何东西。

显然，两党在此时会陷入困境。如果有一党不支持法案，另一党将白拿十亿美元，正好用作竞选经费来战胜对手。当然，任何一党都不希望看到这种情况发生，因此都会选择支持法案。

这一游戏的结果当然是法案通过，哪怕两党从内心并不支持法案。同时，两党也都没有获得任何优势，那位狡猾的亿万富翁也一文不花。与古代政客竞相奔走于权门相比，美国现代政治不过是换了一种背叛的方式。

实际上，《三体》小说中的黑暗森林法则在生活中是无处不在的，只不过形式和程度不同而已。