口袋里的人工智能：计算机博弈最新章节_张小川著

一、无处不在的博弈

什么是博弈呢？无论是中文的“博弈”一词，还是英文单词“Game”，本意都是游戏，只是中文一般指下围棋，范围上比英文狭窄一些 ^［1］。在社会经济得到比较充分的发展后，游戏成为人们常见的娱乐活动，同时更多其他对抗性场景也被纳入博弈的研究范畴，从而使得在对抗性活动过程中决策者参与了决策、产生了收益的，运用了理性思维的活动，都被归入博弈的范畴。因此，当下讨论的博弈，已经突破了游戏范畴。本书所讨论的博弈是指在一定规则约束下，各方为谋取自身最大利益而进行的对抗性活动。

此外，本书讨论的博弈预置了“参与者是理性决策者”的假设条件。因此，将博弈完整地归结为：博弈是在清楚的约束条件下，依据相应的博弈规则，理性决策者从被许可的行为或策略中作出选择，并从中获得相关利益的过程。整体来看，博弈是系统性对抗，其过程涉及多种因素，是一个复杂的决策工程。为达成本书的科普目标，本书将淡化博弈中智能系统特征，侧重于技术常识性阐述。

（一）体育博弈：斗技又斗智

有人的地方，就有博弈。小到两人的象棋、三人的扑克游戏——“斗地主”、四人的麻将、多人的德州扑克等，大到球队间的体育竞技、企业间的市场竞争、国家间的军事对抗等，都存在不同层面的博弈，由此可见，博弈既需要知识、方法、智能，也需要力量、勇气、意志。对于博弈活动，人们热衷看见以弱胜强、以小博大，在体育比赛中这种意愿表现得更为明显。

“体育”作为一个书面词语，直到19世纪70年代才在日文中出现。通常来讲，体育包含了锻炼、教育、竞技三方面内容，本书只讨论体育活动中与技能、智能相关的博弈对抗性内容。如掰手腕竞技活动，首先是参与者双方力量比拼，其次需要五指、拳眼、拳心位置与方向合理配合，最后还涉及合理应用力学原理，如手拐支点与躯干之间距离远近、角度大小所构成的杠杆问题，这就是体育智能的具体体现。又如乒乓球对抗，运动员首先要掌握乒乓球基本技术，包括对力量、方向、球的旋转、击球点、球落点的控制，再配合人体躯干、脚步、手臂、手腕的系统性调动。但是，要赢得比赛还需要应用策略、心理博弈等智能支撑。体育博弈的基础是健康的身体、良好的体能、优秀的技能、坚毅的品质，在高对抗、强对抗中，这些素质、技能是缺一不可的。体育竞技既有体力比拼，也有技能比拼，更有智能比拼。

体育是人类在解决生存问题后的一项重要社会性活动，也是一种复杂的社会文化现象。在体育比赛中，抛开观众的主队情结、爱国情结，观众渴望看到力量的对抗，同时也追求技能与智能的较量。体育博弈作为一种社会活动，正好符合人们对体力与智力、毅力与技能的崇尚。这是体育博弈无处不在的重要原因（图1-1）。

图1-1 无处不在的体育博弈

在体育活动中存在一类特别强调智力比拼的活动，那就是下棋、打牌、打麻将等棋牌类活动。棋牌作为一类特殊的对抗性体育博弈，不像拳击、足球、拔河等以拼体力为主，却更具有斗智、不斗力的显著特点。人们闲暇时，通常将下棋、打牌作为娱乐消遣活动，它对活动场地和活动空间要求不高，对参与者的年龄限制极小，老少皆宜。因此，借助棋牌类活动，人们得以不断训练自身的谋略能力，提高智力水平。

进入近代，人们开始研究智能的内在本质，揭示智能的关键机制。特别是进入20世纪，以“人工智能之父”艾伦·麦席森·图灵（Alan Mathison Turing）为代表的许多科学家，开启了人工智能探索之旅。图灵第一个提出在纯数学符号与实体世界之间建立联系，将现实世界抽象为数学符号，再利用数学运算规则，实现数字计算，这就是现代计算机的理论模型——图灵机。图灵还提出了“判断机器是否具有智能”的图灵测试，为了验证该测试方法的可行性，图灵构造了一台能下棋的下棋机，但是当时的技术条件还无法支撑完成图灵心中的计算设备——计算机，为此，图灵就模仿“心目中的计算机”走步，完成了世界上首个国际象棋程序，由于是在纸上演算的，后人将其称为“纸上下棋机”。后来有科学家、工程师按照图灵的这个设计思想，在MANIAC计算机上成功实现了国际象棋程序，从此开启了模仿人类智能的人工智能研究工作。这也是后人尊称图灵为“人工智能之父”“计算机之父”的重要缘由。图灵当初选择了在西方社会非常流行的国际象棋作为研究智能的载体，通过模拟人类在下棋过程中的思维、心计、行为等要素，在纸上“教会”计算机下棋，从而开启人类研究生物智能、模仿人类智能这一伟大行动，为后来者前赴后继的研究奠定基础。

实际上，自图灵发明了“纸上下棋机”之后，“教会”计算机下棋、打牌，以及举办各类人机大战、机机大战比赛等一些重要事件成为推动人工智能发展的强大动力（图1-2）。而以此为研究内容的计算机博弈，也发展成为人工智能的一个重要分支。

图1-2 人工智能的发展历程 ^［2］

（二）军事博弈：兵法智能

本节以军事博弈为例，向读者呈现军事斗争中包含的博弈思想，以证明博弈与人类相伴而生的永恒性。实际上，从外交官面对面的争论、争执，到两国军队的擦枪走火、直接对抗，其中除国家实力、军队战斗力等因素外，还有军事博弈的斗智与斗法的影响。在我国历史长河中，春秋战国时期是一个极其特殊的时期，为完成统一中国的宏愿，秦国不仅“奋六世之余烈”，而且广纳天下英才、不断吸收先进思想、接纳先进文化，在实现统一六国后，实行“书同文”“车同轨”“度同制”“改币制”，这是大秦帝国利在千秋的万世之举，为中华文明生生不息、持续不断地发展作出重要贡献，也为中国版图奠定基本框架。

与此同时，春秋战国时期国家之间的频繁征战，给军事对抗、外交博弈带来激烈的碰撞，也为后人留下宝贵的军事博弈思想财富。这个时期，有公孙衍、苏秦提出“合众弱以攻一强”的“合纵”之策，也有张仪提出“事一强以攻众弱”的“连横”之略，从而构成了著名的合纵连横外交政策，不仅产生了范蠡、吕不韦等谋略家，还有孙武、吴起、孙膑等军事家，为后人留下著名的《孙子兵法》《吴子兵法》《孙膑兵法》，这些兵法是我国古代军事文化遗产中的璀璨瑰宝，也是关于人类军事博弈的最完整、最经典的兵书，体现了我国先贤们的大智慧、大谋略、大格局。

《孙子兵法》是兵书中军事博弈的代表作。它是孙武的私人日记，蕴含了将帅带兵打仗的深刻道理，被后人誉为“兵学圣典”，成为许多将领指挥战争的思想与方法源泉，也是当今世界上不少军事院校必读的兵书。《孙子兵法》有13篇、共6 000多字，字数虽少，但内容短小精练、逻辑缜密严谨。在约2 500年前，军事家孙武就能从道、天、地、将、法等多个方面来思考战争、谋划战争，提出要赢得战争，需要君王重道，令百姓信服，具备天时地利人和，将帅同心，并要有智慧谋略、制度完善、后勤保障等要素。这集中体现了国人自古以来所形成的系统化思考、全局性谋划、统一行动的智慧。实际上，这就是智能博弈的核心所在，不专于一时、一地、一事的计算，而需要更大视角的谋划，这些极具前瞻性的思想精髓，也在我国古代的另一部兵书《三十六计》中得到全面体现（图1-3）。

图1-3 我国军事博弈的两部经典兵书

如果说《孙子兵法》是描述带兵打仗的作战场景，对可能遇到的种种情况进行详细分析并提出相应策略、方法，那么，《三十六计》就不仅仅描述战争场景，其中诸如“无中生有”“打草惊蛇”“调虎离山”“空城计”“苦肉计”“浑水摸鱼”等计谋，它们被广泛应用于生活、生产、经营、管理等场景。《三十六计》的作者已无从考证，但它与《孙子兵法》都代表着我国古代先贤们卓越的谋略与智慧，成为当今博弈场景中经典思想的指导与行为准则，为解决博弈难题贡献了思路和方案。比如，管理领域的SWOT分析法（即分析优势、劣势、机会、威胁4个因素），就强调必须先了解自己，了解客户和竞争对手，这就是《孙子兵法·谋攻篇》中“知己知彼、百战不殆；不知彼而知己，一胜一负；不知彼不知己，每战必殆”的具体应用。两部兵书都讲“计谋”“谋略”，但选择的场景、对象等有差异。《孙子兵法》的“计”更多是指战略层面“实力计算”中的比较、分析等，而《三十六计》的“计”则侧重于战争层面“奇谋、巧计”的筹谋与行为等。

综上可见，《孙子兵法》是大战略、大智慧，《三十六计》是巧计、巧智。具体来说，无论在生活、生产还是战争等场景中，人类为了生存与发展，就注定要与自然、与他人、与他国博弈，而博弈的本质就是在一定物质、资源的基础上斗计、斗谋和斗力。战争的特殊性与残酷性，决定了军事博弈的震撼性和强势性，从而凸显兵法智能的独特性和重要性。

（三）市场博弈：定价智能

企业存在的目的之一是盈利，而企业要实现盈利就必须通过市场来完成相关商品、服务的价值交换。市场中有许多企业，而不同企业往往能够提供相同或相似的商品或服务，也就是说市场上的商品、服务并不具有唯一性，此时，作为商品、服务各种属性中辨识度最高、顾客敏感度最高的价格，就直接决定了商品、服务实现价值交换的成功率，最终决定了企业的盈利水平，甚至是企业的存亡。由此可见，在市场博弈中，企业的定价策略是关乎企业存亡与发展的大事，也是市场博弈的重要内容，需要足够的智能支撑。

虽然商品、服务的市场价格是以数字形式呈现的，但是在其定价过程中需要综合考虑企业产品和服务的成本及质量、竞争对手、利润、供求关系、品牌价值、政策等多种因素。因此，定价的背后就是企业市场竞争的系统性争斗，其过程是复杂的，具有显著的智能特征。

为帮助读者理解，在此以市场中商品或服务的各销售方收益总和值的正、零、负为划分依据，将企业的定价博弈行为划分为正和博弈、零和博弈、负和博弈3种类型，如图1-4所示。正和博弈是指市场中商品、服务的各销售方，通过合作、协商，实现在市场竞争中的“双赢”或“多赢”，各方收益总和是正数；零和博弈是指在市场竞争中，某方在其他各方损失的基础上实现收益，且各方的收益总和为零，这是“将成功建立在他人失败之上”的市场竞争，也被称为非合作博弈；负和博弈是指市场中各销售方没有或者极少有合作，恶性竞争，最终各方收益的总和为负数，因此，负和博弈是损人不利己的博弈。由此可见，理想的市场博弈是正和博弈、实现“双赢”。但是，市场容量是有限的，而且市场需求存在着许多不确定性，各市场竞争参与方的合作程度也难以确定，这就决定了企业的定价需要定价智能，即通过收集、监控、处理定价数据，开展市场调研，深入了解市场，确定定价策略，明确企业利润，制定商品、服务价格。显然，定价智能已成为一种企业形成长期竞争优势的企业行为，促使企业保持定价策略活力和提升企业竞争力。

降价销售是有智能的。企业为了达成自身经营目标，打开某种商品、服务的销路，在实际的经营中，采用的常见策略就是降价销售。比如，有的企业在周末及节假日限时降价，并且通常会声明降价具有特定时段性，过后恢复，其目的就是瞄准在这些时间段内消费者迸发的消费热情，这种“直接降价”行为通常能达到大幅提升销量、减少库存、提高知名度、抢占市场份额等目的。从宏观来看，这类在特定时间的降价对企业的冲击和风险都是有限的、可控的，这也是企业常常采用此种定价策略的重要原因。再如建立顾客消费积分制，即承诺顾客达到一定消费额度，累积到一定消费积分后，可以换购商品等，或是顾客预存一定消费金后，为顾客提供打折优惠，其本质就是变相的商品降价。这种“变相降价”的行为更容易达到维持顾客黏性、稳定市场占有率等目的，这种降价实际上是针对企业长期客户的奖励性降价，因此从长远来看对企业的定价影响是正面的。

在市场竞争中，其他常见的产品推销广告战，产品差异化、售价动态化管理等行为，最终都将以某种形式呈现在产品终端的销售价格上。比如，在电商平台，商品价格会随着客户访问量的变化而动态变化，当某商品需求急剧增加时，通常其价格会上涨，甚至会出现第二次下单时的价格比前一次下单时的价格高的情况，这其实就是因为后台提前判断了顾客“真喜欢”“真需要”这件商品，由此推测顾客愿意为稍高的价格买单，基本逻辑就是让顾客“为喜欢买单”，这就是定价智能的一种具体体现。此外，一些特殊服务的地点、方式、时间具有极其特殊的属性，如旅店（背后是特定时间的具体房型及数量）、机票（背后是特定时间的航班及舱位），其价格就会随顾客购买的时间点与商品服务时间点的“距离”长短而变化，简单来讲这个“距离”越长，比如1个月以上，往往会越便宜。这些顾客是企业的销售基盘，为确保这个基盘的相对稳定，企业常常会通过较高额度扣款比例限制提前一定时间购买的顾客退订、换订。但是并不是“距离”越短，价格随之越低或越高，企业会依据商品的销量与“距离”的关联性来确定商品的价格，通常基盘数量较大，就意味着企业的成本冲抵任务基本完成，此时价格就会逐渐提高，相反，当基盘数量较小时，企业为完成成本冲抵任务，可能会继续降价或低价冲量，来完成“不亏本”的最低目标，此时就需要定价智能的算法根据已有的数据为企业提供价格调整建议。当然，其间企业根据商品以往在节假日、特定季节、特定活动的销量预测调整价格，从而实现销售价格的浮动。这就是当“距离”接近0时，价格波动比较大的内在逻辑，因为过了特定时间点，或者“距离”成为负数时，没有售出的旅店房间或机舱座位不但不能为企业贡献利润、冲抵成本，相反还会产生损耗、折旧、维护成本。由此可见，同样是降价、提价行为，其变动幅度、发布时间等，都需要强大的定价智能支撑，这也隐含了企业与消费者之间的博弈智能。这些智能需要算法、数据分析和博弈论、运筹学、社会心理学、市场营销等多种技术、策略的综合性支持，这就是定价智能研究的范畴。

综上可见，无论是企业的“直接降价”“变相降价”行为，还是互联网时代常见的“羊毛出在猪身上（获得的优惠都会由市场其他的主体买单）”的创新商业模式等，其背后的本质都是在不同市场要素中的腾、挪、转、换，其实质就是企业市场竞争的定价智能行为，具有极高的对抗性和智慧性。

（四）教育博弈：育才智慧

人类的发展离不开教育。教育就是通过传播人类文明成果，以学习为主要手段，使受教育者“内化于心、外化于行”。但是，学习过程是痛苦的，无论在其中注入多少“快乐要素”，都不可能否定其中的痛苦历练。它的内在逻辑是：

①存在“要你学”与“我要学”这个恒定的教育博弈难题，这个难题常常存在于家庭和学校中，父母、教师需要帮助学生去解决。②优质教育资源总是有限的。在此前提下产生了大众教育是否公平的问题，这决定了受教育者必须以某种尺度被选择。目前来看，“考分”作为尺度，操作相对容易、接受度高、对比性强，从而演变成为教育领域的量化尺度。这也说明在教育中博弈是普遍存在的。

那么，在教育中又存在哪些博弈现象，背后隐藏着什么样的博弈智能？这就是本节尝试介绍的育才智慧。为做到浅显易懂，在此主要以家庭教育、学校教育为场景，瞄准家长与孩子、教师与学生间的相互影响、相互制约中的人才培养的博弈智慧。在此提出一些有待探索的观点、看法，以供参考。

在家庭、学校中，由于未成年的学生普遍存在规则意识、自制力、时间管控力差等亟待增强的问题，一些过激的“对抗性”“抗争性”现象时有发生。常见的是家长为学习、教育问题与孩子发生争执，孩子在成长过程中也面临成长烦恼、逆反心理，以及与家长的期望存在落差等难题，严重时还会引发家庭矛盾，甚至发生肢体冲突，其结果自然会对孩子的身心健康和学习成绩造成影响。因此，培养孩子的过程本身就是一个博弈过程，需要博弈智能和育才智慧。这正如古希腊哲学家、思想家柏拉图所说“初期教育应是一种娱乐，这样才更容易发现一个人天生的爱好”，在初期教育中，家长不应过度用强、用力，而要学会使用三十六计中的“欲擒故纵”，先将孩子引进“门”，再逐渐加量、增难、激励，使其树立自信、自强、自尊，最终达到培养孩子“我要学”意识这个高级教育目标，而非停留在仅追求考试分数、考级等低级教育目标。

实际上，技术的发展，引发了人类知识大爆炸，知识、技术更新周期越来越短，千百年来人们传颂的“三人行，必有我师”，在当今信息时代已有所发展和变化，此处的“人”需要扩展到信息网络、“数字人”等范畴。比如，目前大热的ChatGPT聊天机器人，从公共的、历史性的知识丰富度来看，此机器人已经在某些方面远远超过教师与家长。因此，在中小学教育和本科教育中，由教师所具有的压倒性知识而形成的教育场景中信息不对称的现象，正在逐渐淡化，甚至消失。为何古训中的“师道尊严”越来越难以建立？因为教师在学生面前已经少有甚至没有信息与知识的优势。这个“尊严”如何建立？而没有尊严又如何能让学生信服教师、跟随教师？这成为当下家庭教育、学校教育中普遍存在的难题。当然，教师、家长可以通过不断学习，提高教育技能和丰富教育方法，甚至可以参考其他国家的做法：先取得其他学科学位，再接受教育、教学学习、训练并取得教师资格证，最后成为教师。因此，在教育场景使用类似兵法智能的“知己知彼”谋略，也是一种育才智慧的教育博弈行为。

我国北宋的思想家、教育家、理学创始人之一张载曾经说过“教之而不受，虽强告之无益。譬之以水投石，必不纳也。”其含义是在教育学生的时候，如果学生不乐于接受，即使强行灌输，也是没有多少收益的，甚至适得其反，这就好比将一桶水泼洒到石头上，石头也不易吸收全部水分，但是，如果是一瓢一瓢地泼洒，水却能逐渐被吸收，甚至被深度容纳。因此，在教育领域常说的“循序渐进”“因材施教”，也是育才智慧的高度体现。

从上可见，将育才放在博弈大背景中去思考、去理解、去实践，定能发现博弈的许多谋略、计谋可以应用于育才场景之中，如能践行“兴趣驱动”“目标驱动”“过程大于结果”等方法，就能实现意想不到的育才成效。

（五）囚徒困境博弈：纳什均衡策略

博弈是公认的人类高级智能。1944年约翰·冯·诺依曼（John von Neumann）和奥斯卡·摩根斯特恩（Oskar Morgenstern）合著《博弈论与经济行为》，该著作以经济行为为讨论对象，通过细致的分析，建立了博弈公理，并据此建立了博弈论，将博弈论应用于经济行为的研究之中。因此，这本著作也成为博弈论的奠基性著作。尽管博弈论不是约翰·纳什（John Nash）最先提出来的，但是，博弈的准确概念却源于纳什，纳什不仅提出了博弈概念的准确定义，还对该定义进行了严格的数学证明，开创了博弈领域多人参与的有限“非合作博弈”研究新领域。零和博弈类似于前述市场博弈概念，只是将“零”变成一个所有参与方获利之和的常量，即某方所得就必为他方所失。比如，多人切分一个蛋糕、棋牌游戏的输赢等问题，都属于零和博弈问题。但是，纳什均衡并非只针对零和博弈问题，而是进一步假设博弈各方存在合作且以共赢为目标的情况，这就是非零和博弈问题，比如前述市场博弈中的负和博弈就属于非零和博弈类型，典型例子就是“囚徒困境”问题。

“囚徒困境”作为博弈的经典问题，其求解过程具有典型的科普意义。假设两名小偷A、B联合作案，因私闯民宅并被警察逮捕。警察将他们分别安排在不同房间进行审讯，并介绍了他们所面临的处境及可能的3种量刑处罚规定：

①如果他们2人都坦白罪行、交出赃物，那么，在证据确凿之下，两人都将被判有罪，并各被判刑8年。

②如果其中一名坦白而另一名抵赖，则坦白者就会因将功补过而被立即释放，抵赖者则将在8年的基础上以妨碍公务罪加刑2年。

③如果他们2人都抵赖，警方终因证据不足，就不能对2人判刑，但是将以私闯民宅罪名，各判入狱1年。

如表1-1所示，如果2名犯罪嫌疑人掌握了纳什均衡策略，他们最好的结果就是一起抵赖，各判入狱1年。

表1-1 囚徒困境面临的决策

然而，因为2名犯罪嫌疑人被分别隔离关押，无法知晓对方的选择，此时两人会从利己的角度选择坦白，当然结果是损人也不利己，都被判刑8年。

其实，市场竞争中经常会出现相似的竞争对手选择相同策略的默契现象，而且到最后竞争对手之间还能形成互相制衡的经营状态。利用纳什均衡博弈策略能比较好理解这个现象：即使有厂家实施降价销售策略，无论过程如何跌宕起伏，最终都会回归到正常市场竞争状态中。当然，其他各方均出局、仅存一个垄断者的特殊情况除外，这就是国家会从政策层面实施反垄断、价格保护的原因。纳什均衡博弈策略已被广泛运用于经济学、生物学、会计学、计算机科学、人工智能、军事博弈等领域。

计算机博弈是针对棋牌类游戏的博弈，属于零和博弈类型，象棋、围棋、五子棋等双人博弈活动，就是典型的非合作的零和博弈。但是，其中也存在合作博弈。例如，斗地主博弈的农民间和桥牌博弈的同伴间均存在合作需求。因此，纳什均衡博弈策略在计算机博弈领域中是有应用基础的。