哈弗博弈论最新章节_有间文库著

第四课
囚徒的困境

大家都是明白人，每个人都根据自己的利益做出决策，但最后谁也捞不到好处，这就是囚徒困境。当你处于囚徒困境中时，没有什么十全十美的办法既能让自己从困境中逃脱，同时又能获益，只能尽量做到自己不受侵害，不做傻瓜。

人人都是自私鬼

一位富翁在家中被杀，其财物也被盗。警方抓到两个犯罪嫌疑人A和B，并从他们住处搜出被害人家中丢失的财物。但他们声称自己是先发现富翁被杀，然后顺手牵羊偷了点儿东西。于是警方将两人隔离，关在不同的房间进行审讯。

警方分别对他们说，由于你们的偷盗罪已有确凿的证据，所以可以判你们1年刑期。但是，如果你单独坦白杀人的罪行，我只判你3个月的监禁，而你的同伙要被判10年刑；如果你拒不坦白，而被同伙检举，那么你就将被判10年刑，而他只被判3个月的监禁；如果你们两人都坦白交代，那么，你们都要被判5年刑。

A、B二人这时就分别面临两种选择：坦白或者抵赖。究竟该如何做出选择呢？我们来看一下双方的收益矩阵：

A、B博弈收益矩阵

通过这个表格我们可以看到，对双方而言，最好的策略显然是双方都抵赖，那样大家都只被判1年。但由于这两人已被隔离开来，根本没有机会串供，这就加大了结果的不可预测性，或者说增大了双方合作抵赖的风险性。为了避免这种风险，对A、B二人而言，选择坦白交代才是最佳策略。如果同伙抵赖，自己坦白交代，那么自己只会被监禁3个月；如果对方坦白而自己抵赖，那自己就得坐10年牢，这太不划算了。因此，在这种情况下还是应该选择坦白交代。即使两人同时坦白，至多也只判5年，总比被判10年好吧。基于这些分析，选择坦白此时成了双方的最佳策略，而原本对双方都有利的策略（抵赖）和结局（被判1年刑）就不会出现。

有人会认为，如果他们在接受审问之前有机会见面并好好谈清楚，那么他们一定会约好拒不认罪。但实际上这还是不可行，因为他们很快就会意识到，那个协定也不见得管用。因为一旦他们被分开，当审问开始，每个人内心深处那种出卖别人为自己换取更有利判决的冲动就会变得难以抑制。这么一来，原本对双方都有利的策略和结局还是不会出现。

这就是博弈论中经典的囚徒困境。在囚徒困境中，当参与一方采取优势策略时，无论对方采取何种策略，自己都会显示出优势。

参与者之所以会选择优势策略，当然是因为人人都有的自私心理。在面对上述情况时，每个人都会变得很理性，“理性人”都是自私的，不会信任彼此，更不会在危难的时候合作，人人都会自私地追求最大利益，结果却导致了非理性的集体，他们在各自利益的驱使下并没有得到最好的结果。

生活中有很多常见的囚徒困境：比如打扫寝室卫生。到期末或者年末的时候，哈佛大学的多数寝室又脏又乱。为什么会很脏乱呢？因为没人打扫。谁都不愿意清理吃剩的比萨、奶酪渣还有面包渣。为什么学生们不打扫呢？因为在没有统一协调的情况下，让别人去打扫是每个人最希望的结果，自己去打扫是每个人最不希望的结果。无论是基于人人都有的自私心理，还是懒惰，最后结果往往都是无人打扫，寝室脏乱也就不足为奇了，囚徒困境也就这样形成了。

聪明反被聪明误

在博弈论中，核心问题是判断人与人之间的利益关系，并做出对自己最有利的选择，它教会人们怎样变得更聪明。而在生活实践中，这个教人怎样聪明的学问却又告诫人们，做人不能太精明了，否则聪明容易被聪明误，弄巧成拙。

经常乘飞机的朋友会发现，行李不翼而飞或者里面有些易损的物品遭到损坏。这些都是很麻烦的事情，为此则需要向航空公司索赔。航空公司一般是根据实际价格给予赔付的，但有时某些物品的价值不容易估算，而物件又不大，那怎么办呢？

哈佛大学的两个学生艾娃和奈特莉出去旅行，她们互不认识，在同一个瓷器店各自购买了一个一模一样的瓷器。从机场出来后，她们发现自己托运行李中的瓷器损坏了，于是她们随即都向航空公司提出索赔。航空公司评估人员将瓷器价值估算在500元以内，但由于艾娃和奈特莉没有价格凭证，航空公司无法确切地知道瓷器的价格，于是分别告诉艾娃和奈特莉，让她们把购买时的价格写下来。

航空公司认为，如果这两位小姐都是诚实的人，那么她们写下来的价格应该是一样的；如果不一样，那么必然有人在说谎。而说谎的人一定是为了获得更多的赔偿，所以申报价格较低的那个小姐应该相对更加可信。因此，航空公司会采用两个价格中较低的那个作为赔偿金额，同时给予那个给出更低价格的小姐200元的奖励。

这时，艾娃和奈特莉各自心想，航空公司认为这个瓷器价值在500元以内，但不低于10元，如果自己给出的损失价格比另一个人低的话，就可以额外再得到200元，而自己的实际损失不过是400元。

艾娃想，航空公司不知道具体价格，那么奈特莉肯定会认为多报损失多得益，申报价格只要不超过500元即可，那么最有可能报的价格就是400元到500元之间的某一个价格。艾娃心想自己就报390元，这样航空公司肯定认为我是诚实的好姑娘，奖励我200元，这样我实际就可以获得590元。

而同样精明的奈特莉想到艾娃的心理，自然想要比艾娃填得更低，以此获得额外的奖励。

这样，两个人相互盘算，最后很可能导致的结果是，两个人都填了比原价更低的数目，那么最终填的都会是310元，各自拿到的也都只是她们填的那个金额，而航空公司只需一共支付给她们620元，这比她们填原价要少180元。在这里，真正得利的是航空公司，而原本算计着想获得额外奖励的两个人，却是有苦说不出。

在这个事例中，艾娃和奈特莉本来可以商量好都填500元，这样她们各自都可以拿到500元的赔偿金，但因为互相都要算计对方，要拿得比对方多，最后搞得大家都不得益。这样的博弈结果无非两个：一是在博弈过程中，博弈双方在充分考虑自身利益的同时，也充分考虑对方的利益诉求，在相互的利益让步中走向双赢；另一种结果是博弈双方在考虑自身利益的过程中斤斤计较自身的利益得失，精于算计对方，尽可能地将自身利益极大化，从而最终走向双输。

这就是哈佛大学巴罗教授提出的“旅行者困境”。一方面，它启示人们在为私利考虑的时候不要太精明，告诫人们精明不等于高明，太精明往往会坏事；另一方面，它对于理性行为假设的适用性提出了警告。

为什么他们能得逞

现实中的博弈往往并不止两个参与者，这时还会出现囚徒困境吗？答案是肯定的。在多个参与者之间形成的囚徒困境又被称为人质困境，从两个囚犯到一群人质，个人理性与团体理性的巨大冲突能够更真实地反映出来，人质在面对威胁时，面临着同样的心理困境。

1956年2月14日，苏共第二十次代表大会在莫斯科召开。24日，大会闭幕。这天深夜，赫鲁晓夫突然向大会代表们作了《关于个人崇拜及其后果》的报告（所谓的《秘密报告》），系统揭露和批评了斯大林的重大错误，要求肃清个人崇拜在各个领域的流毒。报告一出，顿时在苏联国内外引起了强烈反响。

由于赫鲁晓夫曾是斯大林非常信任的人，所以很多人心里都有个疑问：你既然知道他的错误，为什么在斯大林生前和掌权的时候，你不提出意见，而要在今天才放“马后炮”呢？

后来，在党的代表会上，当赫鲁晓夫就这个话题侃侃而谈时，有人从听众席里传来一张纸条，上面写着：当时你在哪里？

可以想象，当时赫鲁晓夫是何等尴尬和难堪。如果回答必然自暴其短。而如果不答，把纸条丢到一边，装作什么也没发生，那么只会表明自己怯阵，结果必然会被在场的人看不起，从而丧失威信。从台下听众的一双双眼睛中他知道，他们也有同样的疑问。

赫鲁晓夫想了想，便拿起纸条，大声念出了上面的内容，然后向台下喊道：“写这张纸条的人，请你马上从座位上站起来，并走到台上。”台下鸦雀无声。赫鲁晓夫重复了一遍，但台下仍然是一片死寂，没有人敢动弹一下。

赫鲁晓夫于是淡淡地说：“好吧，就让我告诉你，当时我就坐在你现在所坐的那个位置上。”

这个故事不仅反映出了赫鲁晓夫的机智和率直，而且表明，在一群人面对威胁或损害时，“第一个采取行动”的决定是劣势策略，因为它意味着惨重的代价，这就是人质困境。

在人质困境中，人质当然有反制策略，但实行起来艰难至极。比如联合劫持者对付人质，结局还是取决于劫持者，因为主动权在他们手中。另一种选择就是所有人质联合起来同时反抗，但这需要超乎寻常的勇气。因为统一行动最重要的是沟通与合作，而偏偏沟通与合作在这种时候变得非常困难——劫持者由于深知人质联合起来对自己意味着什么，必然会尽可能阻挠人质们进行沟通与合作，其中包括杀死首先发难的人。

当大家的利益都处在同样威胁之下时，人人自危，都想自保，这无可厚非。但是这样的大众心理会影响到整个社会的风气，人的思想都会变得麻木不仁。

人质困境解答了社会生活中“见义不为”的现象。在有人遇到困难时，我们可能心里也愿意帮忙，但通常会考虑较多。比如，遇见有人落水，会考虑到自己水性不好，如果跳下去，不仅救不上落水的人，自己有可能也要被别人救。而且，面对如此紧急的事件，我们可能缺乏解决实际问题的经验，想通过观察他人的表现来确定自己的下一步行动。不幸的是，他人也同样在观察着我们，以此确定他们接下来的行事策略，结果就出现了群体坐视不理的冷漠行为。而这一结局无疑将令所有人痛心，也令所有人的终极利益受损。与哈佛大学同在波士顿的犹太人屠杀纪念碑上，铭刻着德国新教牧师马丁·尼莫拉留下的短诗，诗中的内容发人深省：

“在德国，起初他们追杀共产主义者，我没有说话——因为我不是共产主义者；

“接着他们追杀犹太人，我没有说话——因为我不是犹太人；

“后来他们追杀工会成员，我没有说话——因为我不是工会成员；

“此后他们追杀天主教徒，我没有说话——因为我是新教教徒；

“最后他们奔我而来，却再也没有人站起来为我说话了。”

破解囚徒困境

囚徒困境中，每个人都基于自己的利益做出选择，结果却是谁都得不到好处，所有理性的参与者在自私自利之心的驱动下，导致了所有人的利益“同归于尽”。那么囚徒困境是否可以打破，困境中的参与者能否彼此协调，从而使彼此的利益都达到最大化？当然是可以的。

第一，制定契约，建立相互信任的关系。

在富翁被杀的囚徒困境中，假如每个人都相信对方不会坦白，那么合作抵赖的最佳结果就会出现。当然，实现这种合作的关键是彼此的信任。只要双方能够达成彼此信任的关系，那么合作就会出现。

如何达成彼此信任的关系呢？一个比较有效的方案就是签订一份对双方都有约束力、对背叛者施以严厉惩罚的契约。比如在商业领域，即使双方未曾合作过，也能通过订立合同达成彼此信任的关系，从而实现合作。因为合同中带有违约条款，谁不遵守合同，谁就将承担对自身极为不利的法律后果。

当然，签订合同与诚实守信地履行合同是两回事，但比起没有合同来，签订具有约束力的合同显然更有利于防止“背叛”的出现。

第二，建立长期关系，进行重复博弈。

吸烟者都明白，吸烟可以满足一时的快感，却会导致日后的健康问题。可是对于只顾满足眼前欲望的吸烟者而言，吸烟将是他的最佳选择。同样的道理，在囚徒困境中，如果参与者不考虑将来，背叛是最好的选择，尤其在博弈只有一次的情况下，对参与者而言，背叛简直就是理所当然的选择。

在单次博弈中，背叛者只看到预期收益，而不顾预期风险。如果参与者将预期风险也考虑进去，就会对其策略作出调整，因为现实中的博弈有很多都是“不定次数的重复博弈”。预期风险的存在，改变了博弈参与者的收益，改变了收益也就改变了参与者的动机。

事实上，重复博弈也更逼真地反映了日常人际关系。在重复博弈中，合作的长期性能够纠正人们短期行为的冲动。

第三，施以报复，让背叛行为不敢发生。

同样是在富翁被杀的囚徒困境中，假如每一个拒绝坦白的囚徒，都可以在刑满释放后对坦白的囚徒进行报复，那么每个囚徒就可能因担心未来的报复而宁愿选择抵赖，这样，双方都抵赖的均衡就出现了，合作达成。

在很多案件中，的确可以看到犯罪集团的成员被拘后拒不坦白。这在很大程度上与惩罚机制有关。因为在犯罪集团中，如果出卖其他成员，将永远无法在“江湖”立足，并且其家人也将受到其他犯罪集团成员的追杀。正由于这种报复与惩罚机制的存在，使得囚徒间彼此合作，从而打破了“囚徒困境”。

第四，通过教育改变收益，进而改变参与博弈的动机。

通过教育的方法改变博弈的收益，从而改变参与者参与博弈的动机，这样也有助于打破囚徒困境，但这种方法并非总是有效的。

“自私”是社会的驱动力

吉姆和德拉是一对非常恩爱的夫妻，他们非常贫穷。吉姆身上最值钱的就是一块怀表，但是穷得连一条表链都买不起。德拉有一头非常漂亮的金色秀发，却没钱买一把好梳子。圣诞节来临，这对夫妻尽管身无分文，却都想给对方悄悄准备一份礼物。

吉姆想来想去，狠下心把心爱的怀表卖掉，为心爱的人买了一把漂亮的梳子，好让妻子梳理那一头美丽的金色长发。然而，德拉为了给吉姆买一条表链，卖掉了自己的满头秀发。最终他们发现，吉姆再也不需要表链，德拉也不需要梳子，而他们最值钱的两样东西，现在都没了。

在欧·亨利著名的短篇小说《麦琪的礼物》的故事中，夫妻双方完全不为自己着想，结果反而不如自私的好。这从另一个角度告诉我们，自私自利并不该一律否定。

只有在人们绝对自私的时候，合作才会给参与各方带来更多的利益；当人们不是出于自私的目的而合作时，不但不会得到更多利益，反而可能造成“双输”的局面。

哈佛大学曾经举办过一次“合作与社会两难困境研讨会”，会后两位学者亨廷顿和海耶斯提议，在座的专家一起玩一个游戏。他们拿出一个大信封，让专家每人拿出一定的现金放进去，如果最后信封里的钱超过了250元，那么亨廷顿和海耶斯会返给每个专家10元；可是如果信封里的钱不足250元，信封里的钱就全归亨廷顿和海耶斯所有。

当时在场的除了亨廷顿和海耶斯之外共有43个人，简单计算一下就可以知道，只要每个人放入信封250/43元，也就是不到6元，那么每个人都可以得到10元。可是，等到所有人都把钱放进大信封之后，亨廷顿和海耶斯数了一下，一共只有245.59元，距离250元只差不足5元。

看过这个故事，很多人都会说这些专家太自私了，只要有一个人多拿出5元，所有人都会得到不错的回报。然而，事实恰恰相反，并不是这些专家太自私，而是这些专家还不够自私。

在日常生活中，人们往往将自私与贪婪、嫉妒等词语联系起来。在博弈中，理性人追求自身利益最大化，实际上就是自私。在亨廷顿和海耶斯的游戏当中，各位专家理性的选择应该是这样：如果最后信封里的钱超过了250元，自己的最优选择就是不投进一分钱，因为这样自己会得到最大利益即10元；如果最后信封里的钱没超过250元，自己的最优选择同样是不投进一分钱，因为这样可以避免任何损失；在场其他人可能也会做出同样的理性分析，所以大家都不会投钱，也就是说信封里面的金额肯定不会超过250元。如果各位专家足够理性、足够自私，那么信封里应该一分钱都没有。信封里面会有那么多钱，说明专家们还是愿意为增进大家的共同利益作出一些牺牲的。

或许一些伦理学家会为专家的这次合作感到高兴，但是对于损失利益的专家们来说就没有任何喜悦可言了。当个体没有从理性的角度来考虑该不该合作时，合作注定是会失败的。合作的基础并不是人们愿意在合作中牺牲什么，而是人们希望从合作中得到什么。人们因为追求自己的利益参与到一场合作当中，这样的合作才是稳定的、可靠的。专家之间的合作其实根本就不应该存在，因为这样的合作给每个人带来的是损失而不是利益。下面我们来看一个人性的不自私无法促成合作的例子：

从前，两位旅行者遇见了一位圣者。圣者受到两人的热心照顾，十分感动，在将要离别时对两个人说：“很遗憾，我就要和你们道别了。分手前，我要送给你们一个礼物，礼物就是你们当中一个人先许愿，他的愿望一定会马上实现；而第二个人可以得到那个愿望的两倍！”此时，一个旅行者心里想：太棒了，我知道我想要许什么愿，但我先不讲，先许愿自己就吃亏了，因为对方可以实现双倍的愿望。而另外一个旅行者也自忖：我不想让他实现双倍的愿望。于是，两位旅行者“客气”起来：“你先讲嘛！”“你年长先许愿吧。”“不，应该你先！”终于，一个人生气了，大声说：“你真是不知好歹，再不许愿，我就把你的狗腿打断！”另外一个人听了也很生气，没想到对方居然恐吓自己！于是想，我得不到的东西，你也休想得到！这人心一横，狠心说：“好，我先许愿！我希望我的一只眼睛瞎掉！”很快，这位旅行者的一只眼睛瞎了，而他的同伴两只眼睛都瞎掉了！

对这两位旅行者来说，最好的选择就是采取合作的策略，虽然这样对方会获得两倍的利益，但自己同样也会获得不错的利益。然而双方最终没有合作，主要是因为这两个人还不够自私，他们总是会想到对方将获得更多的利益，可是他们没有明白的是，如果对方的利益与自己的利益没有冲突，自私的人就应该安然接受。

永远不会消失的困境

在现实生活中，处于囚徒困境的时候，没有什么十全十美的办法能让自己既从困境中逃脱，又能获得利益，只能尽量做到使自己不受侵害，并不惜牺牲其他参与者的利益。出卖合作者在道德层面上而言是不对的，但就博弈论来说，则是迫不得已的选择。

两个朋友一起去深山里游玩，结果遇到了一只熊，他们都十分害怕。其中一个人弯腰下去把鞋带系好，做好逃跑的准备。另一个人对他说：“你这样是没有用的，你不可能跑得比熊快。”那个准备跑的人回答说：“我不需要跑得比熊快，我只要跑得比你快就行了。”

囚徒困境下，博弈参与者有时别无选择，他们必须力争让同伴成为最大的牺牲者，这样才能让自己获得囚徒困境下最好的处境，这就是出卖合作者原则。在这个“朋友和熊”的故事里面，那个准备逃跑的人面临的选择有以下几个：

选择A——不逃被熊吃掉；选择B——逃跑，被熊吃掉；选择C——逃跑，得以生还。

在这些选择里面，如果选择逃跑，会有生还的机会，而他的朋友也有同样的这三种选择。对于选择逃跑的人来说，只要他选择了逃跑，就会有生还的机会。如果他的朋友选择不逃跑，生还的机会自然属于他；朋友选择逃跑，就需要一个附加条件——他跑得比朋友快，这样才会生还。所以，在这一博弈过程中，无论他的朋友做出什么选择，只要他自己拼命去跑，就会有机会生还，这是一个标准的囚徒困境模式。

囚徒困境之所以会出现，是因为在这种博弈模型中，每个局中人都以自身利益为第一参考因素。追逐利益是人的本能，每一个人在博弈过程中都是自私的，有时甚至为了自己的私利而不择手段。正是因为人的自私性，囚徒困境的难题会出现在诸多事情上。

在美国，人们将领导人任期将满时出现的一种不合作现象称为“跛鸭效应”。比如总统任期的最后阶段，“跛鸭效应”的出现损害了他们为别人提供合作动机的能力，从而会造成很多问题。与总统类似，很多公司的CEO们在任期的最后阶段也会出现这种情况。重复博弈的精髓就是，未来为现在提供了动机。之所以会有这种“跛鸭效应”，是因为将失去来自未来的激励，所以也同时失去了对未来的回报或惩罚的承诺，导致合作破裂，领导人得以从博弈中解脱，“背叛”的诱惑将难以遏制。

现在假设甲、乙两人进行囚徒困境博弈，会出现怎样的情形呢？假如这个博弈只玩一次，双方都可能使坏。假如甲使坏，乙善意，甲、乙收益为（3，3）；假如甲善意，乙使坏，甲、乙收益为（0，3）；甲善意，乙善意，则收益为（2，2）；甲使坏，乙使坏，则双方收益为（1，1）。因此，不管对手怎么做，假如这个博弈只玩一次，坏心一定比较有利。然而，假如博弈1000次，情况会是什么样子？

假如在整个博弈中，甲、乙都使坏，双方的效用都是1分。但要是甲、乙两个一直都不使坏，双方的效用就是2分。假如甲、乙其中一个开始使坏，对手就会跟着使坏，于是双方就会形成只得1分报酬的僵局。所以甲宁可先表达善意，希望乙也跟进。如果每次都是甲采取先动策略，那在最后一回合甲肯定要使坏，而乙很可能预知甲使坏而在前一回合就开始使坏。

既然如此，甲在第999回合应该怎么做？甲在第999回合选择使坏一定可以得到比较高的报酬。假如甲不想在第999回合选择使坏，唯一的理由就是为了让对手在第1000回合对自己不使坏。但前面已经论证，不管怎么样，乙在第1000回合都应该会使坏。因此，双方在第999回合都会选择使坏。当然，这表示他们在第998回合也应该选择使坏，因为双方在第999和第1000回合一定会选择使坏。如果我们把这个逻辑一直往回推，可以证明甲在第一回合就会选择使坏！

因此，就算这个囚徒困境博弈进行1000亿次，只要这个博弈存在确定的最后一次，理性的参与者在每个回合都会选择使坏。

博弈论认为，当两个博弈者陷入有限次数重复性博弈中的囚徒困境时，他们一般会选择使坏。

如果一种合作关系有个已知的终点，而且合作关系中的每个人都知道在某个时间这种关系会终止，那我们基本上就不能通过重复博弈来维持合作，囚徒困境还是不会消失。