网络靶场与攻防演练最新章节_文武著

2.3 网络靶场中的理论模型

传统网络着重于构建靶标环境，现代智能靶场更注重各类资源的智能化应用，以及攻防能力的持续积累，尤其对于网络攻防过程的管控、分析与预测。

靶场大脑是智能化网络靶场的核心，通过靶场大数据综合分析技术，使得靶场任务的执行者既能实时全域感知攻防双方的情报、事件和状态，也能宏观预测系统安全熵势变化及攻防双方的攻防能力演进趋势，进而推演出最佳攻防策略，控制并调整攻防双方按想定目标达到最优纳什均衡状态。如何将信息论、博弈论、系统论与复杂系统等理论模型应用于网络靶场是一个值得探索的前沿主题。

2.3.1 信息论与博弈论的启示

近年来，网络安全态势感知理论发展很快，其基本思想是以安全大数据为基础，对能够引起网络安全状态发生变化的安全要素进行获取、理解，以及预测未来的趋势，从而获得基于环境的、动态整体地洞悉安全风险的能力。但传统的安全态势分析主要还是由人为定义安全因素的分值和权重，以历史数据分析与安全要素可视化为主要手段，并不能完全真实客观地反映安全演进的真实状态。因此，需要寻找新的研究思路。

1.信息论与网络靶场

信息论是数字通信领域的天才理论，其重要意义在于提供了如何以信息技术的视角来观察、研究和分析现实世界。 数字世界符合信息论揭示的规律，具有可观测性，也具有可模拟性。这是信息论给网络靶场领域带来的最大启示。

1）用数字来逼近与模拟现实，并抽象出各种模型。网络靶场需要模拟IT系统的内容成分，系统与环境之间的信息联系方式、结构、交互和信息交换所导致的系统变化，以及随之而来的状态变化。概要来说，网络靶场视系统为一个庞大的状态空间，我们研究的是状态空间的简化以及状态空间如何在信息驱动下的跃迁。

另外，结合信息论和系统论可以推导出安全的“负熵”属性，安全系统的混乱程度和风险因素反映为“安全熵”的增减，理论上，通过计算“安全熵”能一定程度上定量分析安全态势的发展趋势。

2）通过对现实的长期观察与积累来发现规律、计算规律。 信息技术对现实世界所抽象出来的模型和现实世界是不同构的，这是信息技术和其他学科最为独特的一点。 将信息论应用到网络靶场领域的一个挑战是：我们必须学会从数字的角度来思考问题。信息技术对现实的抽象是基于功能实现的，是黑盒法，即为了要实现某一个功能，需要什么样的组件、如何将这些组件组成信息流、如何在这个信息流中分块接力处理/加工。然后最核心的就是在这个信息流加工模型中要加入什么样的知识，这些知识该如何表达、如何计算、如何翻译到现实世界中。这个思维模式，正好用于指导我们利用网络靶场将数字设施以平行仿真的方式转换为靶标场景。最终在网络靶场里研究现实场景中的问题，输出可能的解决方案用于改进数字世界。

2.博弈论与网络靶场

博弈论（Game Theory）是冯·诺依曼和摩根斯坦在划时代巨著《博弈论与经济行为》中提出来的，最早应用于经济领域研究中。海萨尼（Harsanyi，1994年诺贝尔奖获得者）给出博弈论的定义描述： 博弈论是关于策略相互作用的理论。参与博弈的人是理性的，对自己行动的选择以他对其他参与人将如何反应的判断为基础。

博弈论主要研究的是决策者如何在决策主体各方相互作用的情况下进行决策及决策的均衡性分析问题。博弈论在决策主体各方策略的相互依存性上进行了重点强调，即任何一个主体必须首先考虑其他局中人的应对策略再来选择自己最理想的行动方案。

博弈论中的局中人（Player）、策略集合（Strategy Set）及收益函数（Utility Function）是三大基本要素。 其中局中人是指在博弈中的决策主体，包括博弈中的每一个独立参与者。“自然”（Nature）在有的博弈中也可以被当作一个局中人，如不确定型博弈。在博弈中局中人被要求必须是“理性”的，为了实现收益最大化总是寻求最佳策略。将局中人在给定的信息集下可选择的全部行动与规则称为策略集合，每一种策略都有相应的结果，局中人可选的策略越多，博弈就越复杂。局中人策略的函数称为收益函数，用于不同策略的效用情况，反映局中人在博弈中的成本和收益多少，是分析博弈模型的标准和基础。

复杂、大规模的网络背后攻防双方之间的博弈是网络安全的本质。如图2-12所示， 网络安全的要素、特征与博弈论的元素、特征具有相符性。

·图2-12 网络攻防与博弈论的对应关系图

而对于博弈论的思想，网络安全中攻防双方具有的目标对立性、策略依存性和关系非合作性也同样符合。为了理解攻防矛盾冲突、预测攻击行为和选取最优防御策略，博弈论提供了一个解决网络安全分析和建模的数学框架，因此在网络安全问题研究中应用博弈论思想具有较好的合理性和可行性。

根据国内安全专家研究，理论上，靶场大脑可以根据博弈系统论关于攻防对抗行为的整体宏观预测理论，创新发展可宏观预测攻防双方博弈状态的智能算法，能够针对黑客当前行为做短期预测，继而由连续的局部微观状态推导出整体宏观状态，通过判定攻防双方的博弈轨迹和博弈系统的解轨线是否存在闭轨线、闭轨线数量、闭轨线的稳定性，以及参数对闭轨线的影响，进而推演出攻防双方的博弈状态、博弈轨迹及博弈结果预测。上述思想可以从概念上总体构成面向攻防博弈状态预测的靶场大脑分析推演技术体系，如图2-13所示。

·图2-13 面向攻防博弈状态预测的靶场大脑分析推演体系架构图

使用博弈论可建立基于攻防轨迹链的局部微观博弈预测方法与基于解轨线的攻防双方博弈状态宏观预测方法。

（1）观察微观层面

黑客行为遵从维纳定理：反馈、微调、迭代。红黑双方对抗的过程正是反馈、微调、反馈、微调……迭代循环的过程，因此，通过创新的黑客、红客赛博轨迹预测和攻防自动化算法，能够在每一微观局部实现对黑客攻击行为和红客防御行为的赛博轨迹分析与预测，构建黑客和红客的攻防行为赛博轨迹链，进而指导黑客和红客对抗策略与执行动作，使攻防双方趋近于收益最大化。

（2）研究宏观层面

攻防双方宏观博弈状态是由连续的局部微观状态在时序上进行叠加而成，研究发现，黑客与红客的博弈状态可以用微分方程组d X /d t = F ( X )的解轨线来描述，通过判定解轨线是否掉入奇点、是否一条封闭的曲线（即闭轨线）等特性来映射博弈状态，尤其是存在闭轨线状态下，可以根据闭轨线数量、闭轨线的稳定性以及参数对闭轨线的影响等判定攻防双方博弈僵持的稳定状态。

2.3.2 用博弈论探索网络对抗

事实上，网络安全所面对的态势情境是高度动态化的，而且决策者必须基于不完善和不完整的信息做出判断。为了克服这一问题，对博弈论在安全领域应用的近期研究尝试将人类行为体（特别是人类对手）的有限理性纳入考虑范围。然而，这种方法及其信弈论方法仍然没有完全考虑诸如记忆和学习的认知机制，这些机制驱动着人类决策过程，并能够对人类表现提供基于第一性原理的预测性说明，其中包括能力和次优偏差（Suboptimal Bias）。同时，如何将认知-合理模型（Congnitively Plausible Model）扩展至具有两个以上代理的安全场景，仍然是一个挑战。由于开发多代理模拟的主要焦点一直是研究群体互动（Social Interaction），因此对个体认知能力做出的假设是非常初级的。下面介绍一种适应于多个类人代理的框架来解决上述问题。

1.网络战博弈：基于个体的认知-合理模型构建多代理模型

从概念上讲， 网络战争是将传统的“攻击者-防御者”概念延伸至通过计算机网络同时执行进攻性和防御性行动的多个代理（个人、国家支持的组织或者国家）。 近年来，对社会冲突的多代理模型的关注越来越多，这些模型与网络战争有一些相似之处。与此同时，有人尝试通过基于多代理的建模来研究网空攻击和网络战争，这种模型通常表征旨在执行最佳策略的策略型代理，不是用于从经验中学习和调整策略。这里提出的网络战博弈引进了多代理框架，用于描述网络对抗的一些基本特点和适应性决策者的部分问题。

网络战博弈是在由 n 个代理组成的全连通网络上展开 r 轮次的过程。每个代理都有两个属性——实力（Power）和资产（Assets），并可以对任何其他代理采取3种可能的动作——攻击（Attack）、防御（Defend）和不作为（Nothing）。实力代表了代理的网络空间安全基础设施以及可能的漏洞，这些反映了代理在网络空间安全方面的投资，或者称为“结果实力”。因此，实力会影响代理对来自其他代理的攻击进行抵御的能力，以及对其他代理执行成功的攻击的实力。资产是代理的所有物（如机密信息、物理资源），需要进行保护以免受其他代理的攻击。代理正在进行的行动也需要资产。因此，代理在攻击或防御时必须花费资产，类似地，资产的变化也会直接影响代理的实力。每一轮次 r 中，决策在 n ( n -1)群体中所有可能的每对代理之间同步发生。注意，每个代理在每轮次中针对每个其他代理做出（ n -1）个决策。这意味着所有决策都是在上一轮次结束时，代理根据所具有实力和资产的上下文背景制定和解决的。

攻击所具有的破坏性可以由攻击的烈度 f （0≤ f ≤1）定义。这是被攻击的代理所被窃取的资产比例。高烈度攻击具有高 f 值（＞0.5），低烈度攻击具有低 f 值（＜0.5）。此外，每场对抗都会给参与的代理带来成本，包括攻击成本（ C ）和防御成本（ D ），而“不作为”动作的成本为零。 C （0≤ C ≤1）和 D （0≤ D ≤1）是代理为了执行动作必须花费的资产比例。

每次攻击或防御动作的影响由Win _ab 度量，其数值是由特定函数计算输出的比例，函数的分子是代理（ a ）执行动作的实力，分母是参与对抗的两个代理（ a 和 b ）的总实力。

在每一轮次 r 中，代理 a 决定以代理 b 为目标采取一个动作（其中 a ≠ b ）。当且仅当代理的资产大于零时，代理才可以对其他代理采取攻击或防御动作，或者受到来自其他代理的攻击或防御动作。无论代理资产情况如何，都可以采取“不作为”动作。第 r 轮次中一对代理所采取动作的结果 x _ab 和 x _ba 定义如图2-14所示。

·图2-14 代理 a 与代理 b 的动作结果

在 r =0时，网络中的所有代理都被赋予大于0的初始资产和实力。每个代理的资产和实力的取值，根据每轮次中所有结果的总和进行更新。每个代理 a 在第 r +1轮次的资产按照当前轮次资产加上代理 a 在第 r 轮次针对其他代理的所有“攻击”“防御”和“不作为”动作的结果之和来计算。

因此，作为每个代理的动作以及每个其他代理的动作的结果，资产在博弈期间动态地发生改变。在任何给定的轮次中，如果第（ r +1）轮次的一个代理的新资产取值是负数，即，则该代理的资产被设置为0，因此该代理不能攻击，也不能防御，同时它不能被攻击也不能被防御，成为一个静止的代理，其唯一的动作选择是在剩余的博弈过程中保持不活动状态（采取“不作为”动作）。第（ r +1）轮次中的代理 a 实力的变化可以表示为从当前轮次到下一轮次资产变化比例的一个函数。如果资产没有发生变化，即，那么下一轮的实力也将保持不变；如果一个代理增加了它的净资产，那么它在第（ r +1）轮次的实力将增加；如果净资产减少了，那么它在第（ r +1）轮的实力将降低。

2.在网络对抗博弈中做出决策：基于实例的学习模型

上述通过基于个体的认知-合理模型构建的多代理模型，允许每个代理对（ n -1）群体中可选的其他每个可能的代理采取3种可能的动作，从构建了一个具有网络战博弈特点的多代理框架。框架中的每个代理均为认知代理，具备学习和决策机制。此外，代理是有限理性的。也就是说，代理旨在最大化其结果，但是诸如记忆、近因效应和频率效应的认知限制因素，以及代理检索此类信息的能力，也会使该结果受到限制。在这里，我们把“实例”定义为属性（情境）、动作（决策）和结果（效用）的唯一组合，在网络对抗博弈中，每个代理都拥有单独的记忆，也具有相同的机制、目标和认知特点，但可能根据实力和资产的特定设置及博弈的动态性而有所不同。

在第 r =0博弈轮次创建一个实例，用于表示每个代理针对其他代理可能执行的每个动作。创建实例时使用资产初始值和实力初始值，以及默认的结果（这些称为预填充实例）。由于默认结果值对所有代理和所有可能的动作都是相同的，因此所有代理都会随机选择。

模型中的每个实例 i 都具有激活（Activation）值，它表示从记忆中获得信息的难易度。激活方程是3个组成部分的总和：基本水平（Base-Level）、部分匹配和噪声。

其中，基本水平表示频率和近因的激活。对于该组成部分，频繁被观察到的实测的值会更高，而且近期被观察到的实测的值也会更高，并将随着时间推移而衰减。

如果将 M _a 记为实例中属性 a 与情境-决策对应属性之间的相似度，并将每个 M _a 定义为0≤ M _a ≤1。其值为1表示完美匹配，即属性值是同或等价的；其值为0则表示完全不匹配；对于中间的值，越接近1说明所考虑的属性相似度越高。需要注意的是，激活的部分匹配组成部分始终为零或负值，这是由于在激活中采用了不匹配惩罚系数。当所有属性完美匹配时，就没有处罚。随着更多属性无法完美匹配，并且不匹配的情形变得更加明显，惩罚也会增大，从而降低了该实例的激活值。在网络对抗博弈的情况下，情境包括4种属性：代理在本轮次持有的资产、代理在本轮次持有的实力、代理确定对其采取动作的对手在本轮次持有的资产和代理的对手在本轮次持有的实力。根据博弈的定义，这4个值都是非负实数，均使用相同的二次相似度函数进行计算。因此，网络战博弈的部分匹配是对 M _a 的4个值取总和。

噪声是一种向激活值增加可变性的组成部分。一旦获得所有相关实例的激活，就可以计算出一个实例的概率。根据检索的概率和每个动作（决策） ο 的结果，可以计算出融合价值（Blended Value）。对于网络对抗博弈，存在3种可能的决策：攻击、防御或不作为。网络对抗博弈中计算得到的 x _ab （或 x _ba ）值作为结果（效用）存在模型的实例（ U _i ）中，一个决策的融合价值由公式（2-3）给出。

在任何一轮博弈中，均可选出具有最大融合价值的行动（决策）。