计算社会学：基础理论篇最新章节_郭斌著

0.3.3 ABM模拟的仿真模型研究

随着计算机技术的发展，计算社会学中一类重要的研究方法——基于智能体的模拟方法（Agent-Based Modeling，ABM）应运而生。区别于前面提到的基于大数据的方法，ABM更加偏重理论分析，其首先基于事实观察数据提出理论或假设，再通过计算机模拟技术对相关理论和假设进行理论分析和验证。ABM通过对观察变量进行精准而低成本的控制，借助于计算系统反复推演系统的变化过程或者决策方式，揭示现象后的一般性规律，提供可解释的现象成因分析。因此，ABM技术从本质上解决了社会科学实验重复成本高，甚至无法重复的问题，而且建立了可解释的抽象模型，有助于从根源上发现现象形成的原因。

“囚徒困境”（Prisoners Dilemma）是博弈论中的一个典型案例。假设警方抓到了两个入室盗窃犯罪嫌疑人，将他们分别关押在不同的囚室中。虽然警方手中有部分证据，但无法直接证明这两人参与了盗窃。为了尽快查明真相，警方告知两名嫌犯如下政策：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的可以放出去，抵赖的判十年。为了解决博弈论中的经典问题，美国著名的行为分析及博弈论专家阿克塞尔罗德（Robert Axelrod）在全球邀请多学科专家编写以囚徒困境为博弈规则的计算机竞赛程序，让这些计算机程序进行博弈，以博弈的收益高低（得分多少）计算成败。通过用计算机模拟不同个体的决策策略，阿克塞尔罗德提出了最佳互惠策略，即一方首先以合作的姿态对待他者，之后便根据对方的反应而做出选择：如果对方合作，则合作；如果对方背叛或欺骗，则惩罚或威慑 ^［57］。

基于智能体模拟方法的另一个典型应用是谢林模型 ^［58］。种族隔离或者群体之间的隔离到底是归因于种族主义，还是其他原因呢？为了回答这一问题，美国著名经济学家托马斯·谢林提出了谢林模型。该模型借助于实验仿真技术研究人群隔离的成因。谢林模型基于以下假设：组成一个社会的所有人都没有种族隔离的意愿，也并不排斥与肤色不同的人一同居住，只是希望邻居中至少有一部分人与自己是相似的。

谢林模型可简单描述为：在一个连通的二维网格区域内，居住着两种类型的智能体（见图0-11，白色和黑色代表不同肤色的家庭，灰色表示目前空闲的位置），每个类型的智能体都有相邻的8个邻居（边界情况除外）。每个智能体都希望拥有不少于 t 个同类邻居。如果当同类邻居的数目小于 t 时，则该智能体会不满足于现状并移动到一个未被占领的单元区域中。通过计算机模拟该程序的执行，最终发现即使在没有强烈种族隔离意识的情况下，最后社会中种族之间仍然是隔离的。即白人与白人聚居，黑人与黑人聚居，聚居区之间有清晰的分割，在地图上呈现为一块块的聚集。

图0-11 谢林模型及其在社会中的观测实例

传统的基于智能体的仿真建模工作，往往依赖于规则来指导或约束智能体的决策行为，具有交互的明确性和实现的简单性等特点。然而，在复杂的现实场景中，多智能体系统存在环境的不稳定性、智能体信息的局部性、个体目标的差异性、状态/动作空间的高维复杂性等特点，难以建立明确的规则来指导智能体决策。为了实现多智能体交互的最优决策，多智能体深度强化学习首先考虑智能体之间可能存在的关系，如竞争关系（非合作关系）、半竞争半合作关系（混合式）或者是完全合作关系等。根据智能体之间的关系，按照完全竞争式、半竞争半合作、完全合作式来阐述多智能体问题的建模以及求解方法。例如DeepMind公司将多智能体强化学习应用在实时策略游戏StarCraft Ⅱ中，通过多智能体强化学习模型AlphaStar在众多单元间的竞争和协作环境下实现玩家收益的最大化 ^［59］。如图0-12所示，AlphaStar通过总览图和单位列表对游戏的态势进行观察。若要执行操作，代理会输出要发起的操作类型、应用对象、目标位置以及下一个操作的发出时间，通过限制操作速率的监控层发送到游戏。AlphaStar共有三个代理池，每个池都由监督学习初始化，随后用强化学习进行训练。在训练过程中，这些代理分别扮演不同的人物角色，从而实现代理之间的动态协作和竞争关系。

图0-12 多智能体强化学习在StarCraft Ⅱ中的应用 ^［59］