计算社会学：系统应用篇最新章节_郭斌著

4.3 无标度网络

网络是一个包含大量个体及个体之间相互作用的系统 ^[42] 。人们在对各类网络的研究过程中发现有一类网络中节点的度值 k 与该度值对应的节点数 P （ k ）满足幂律关系，且其幂指数往往在2与3之间 ^[43] 。为了对该类特殊性质的网络进一步探究，研究人员将其命名为无标度网络 ^[1] 。本节从 社会网络的幂律分析 开始，主要介绍 无标度网络的定义及其特性、无标度网络的典型构建模型 。

4.3.1 现实网络的无标度分析

现实生活中存在多种形态的网络，包括社交网络、人际关系网、贸易网络等。研究发现这些网络节点的度分布都符合幂律 ^[24] 。例如，社交网络中只有部分大V有百万级的粉丝量，他们在网络中具有较大权力，而绝大部分普通用户只有数百个粉丝；互联网中大部分网站没有或只有极少数的站外链接，只有部分权威全站拥有众多站外链接。本节将对互联网、金融网络进行无标度分析，以引出无标度网络的具体定义。

1.互联网无标度分析

前述章节提出的多个网络模型以建模和量化分析现实生活的网络，但是这些模型并未考虑真实网络的典型特征——动态性。例如，经典模型假设网络中的节点数量固定，然后在网络规模不变的情况下采用随机连接（ER模型）或重新连接（W-S模型）建立节点间的关联 ^[44] 。然而现实世界中的网络都是开放的，不停地有新的节点加入或者原有节点消亡。从网络的整个生命周期来看，网络规模是动态的 ^[45] 。例如，互联网中页面数量随时间的增加呈指数增长，科学论文随着新论文的发表而不断增长。这些网络的共同特征是 网络通过添加新的节点而不断扩展，而这些新的节点将连接到系统中已经存在的节点 。

此外，随机网络模型假设两个节点连接的概率是随机且均匀的。然而，多数现实网络中的网络连接具有一定的偏好性 ^[46] 。例如，一个新演员很可能会扮演配角，并与具有更高地位和知名度的演员合作。因此，新演员与已成名演员一起演出的可能性远高于与其他新人演员一起演出的可能性；一个新创建的网页将更可能包含指向知名网页的链接。这些示例表明，新节点连接到现有节点的概率并非均匀，而连接到已经具有大量连接的节点的可能性更高。

基于以上两种特征的模型自然会导致节点度分布的尺度不变性 ^[47] 。为了合并网络的不断增长的特征，从 m ₀ 个少量顶点开始，在每个时间步添加一个具有 m 个边（ m ≤ m ₀ ）的新节点，这些新边将新节点连接到系统中已经存在的 m ₀ 个不同的节点上。为了合并优先连接，假设新节点将连接到节点 i 的概率 P （ k _i ）取决于连通性 k _i ，这样 P （ k _i ）= k _i /∑ _j k _j 。在 t 个时间步之后会生成一个具有 t + m ₀ 个节点和 m _t 条边的随机网络。该网络演化为尺度不变状态，其节点度值分布遵循幂律。正如对真实网络观察到的幂律所描述的那样，系统在其发展的不同阶段具有不同的大小。

2.金融系统无标度分析

随着世界经济的发展，对于金融系统的研究也越来越多，当下的金融系统是典型的基于无标度网络的应用，因此也受到无标度网络特性的影响。20世纪90年代，巴西金融危机从巴西银行业开始爆发，这场危机不仅使巴西的经济遭到了重大打击，也使得人们开始意识到金融系统崩溃的危险性，因此，越来越多的研究开始对金融系统的网络结构进行分析，其中巴西金融危机主要是从银行业的违约开始的，有研究 ^[48] 表明违约风险的传染性远超其余风险，因此其在金融体系中具有不可忽视性。事实上由于机构违约而导致的预期损失可能超过银行间负债规模的数倍。

宏观经济冲击在扩大违约风险的传染性方面起着至关重要的作用。具体而言，当系统受市场冲击影响时传染性风险的比例显著增加，从而在系统中创建了更多的传染性渠道。通过将市场事件和交易对手的影响关联起来可以解释这种现象。无标度的金融网络引入了两种本地连通性度量：交易对手敏感性和本地连接脆弱性。其中交易对手敏感性用于衡量机构债权人对后者潜在违约的敏感性；当给定节点违约时，本地连接脆弱性用于衡量本地连接脆弱性是否会增加。因此，金融系统的无标度网络搭建过程如下所述。

金融系统中的交易对手关系可以表示为加权有向图或网络，定义为三元组 I =（ V ， E，C ）：

● 金融机构集合 V ，其数量为 n 。

● 双边敞口矩阵 E ， E _ij 代表节点 i 对节点 j 的敞口，定义为在计算之日机构 i 对机构 i 的所有负债的（按市价计）市值。因此，这是在 i 立即违约的情况下 i 的最大短期损失。

● C ={ c _i ，i ∈ V }，其中 c _i 是机构 i 的资本，代表其吸收损失的能力。

这样的网络可以表示为图，其中节点代表机构，连接代表风险。将节点 i ∈ V 的度内近亲 k _in （ i ）定义为其债务人的数量，将度数 k _out （ i ）定义为其债权人的数量：

其中，节点 i 的度数 k （ i ）= k _in （ i ）+ k _out （ i ），并测量其连通性。

尽管网络中的所有机构都不是银行，但为简单起见，将这些风险称为“银行间”风险。将 A （ i ）表示为金融机构 i 的银行间资产，将 L （ i ）表示为其银行间负债：

4.3.2 无标度网络的定义及特性

对比随机网络，网络中每个新加入的节点是随机地连接到原有节点。尽管节点之间的连边充满不确定性，但是随机网络大部分节点的度数基本相同，服从泊松分布 ^[1] ；然而本章所介绍的网络中绝大部分节点度值很小，只有少部分节点具有较高度数，节点度值分布服从幂律分布。研究人员将该类网络命名为“无标度网络” ^[1] ，其与随机网络的对比如图4-4所示。

图4-4 随机网络与无标度网络对比

1.无标度网络的定义

1999年，美国物理学家艾伯特-拉斯洛·巴拉巴西在绘制万维网的拓扑结构时发现网络中部分节点连接数远高于其他节点，并且网络中任一节点的连接数均服从幂律分布。同时发现其他的复杂网络，如社交网络、生物网络中节点的连接数也服从幂律分布，此类网络即为“无标度网络” ^[4] 。

无标度网络定义为 ^[1] ：网络节点度分布满足或近似满足幂律分布的网络即为无标度网络。无标度网络中存在一定数量的度值较高的节点称为枢纽节点 ^[49] ，也记作Hub节点。

实际上“无标度”的概念源自幂律的 尺度不变性 （Scale Invariance） ^[50] ，即将幂函数 f （ x ）= αx ^- ^k 的自变量 x 经过放大或缩小任意尺度后，其函数关系仍为幂函数。例如将自变量 x 放大常数 c 倍后，有

其中，符号“∝”表示正比关系。如图4-5 a～c所示，将自变量 x 放大4倍、10倍后，其函数图像仍具有标志性的“长尾”，只是函数值略有变化。值得注意的是对幂指数的缩放实际上并未改变幂律分布函数，因为任何特定幂次的幂律关系都是其他幂次函数的缩放形式。

令 P （ k ）表示网络节点的度分布，即该网络中度值为 k 的节点出现的频数，则无标度网络的度分布满足：

其中，幂指数 γ 为描述无标度网络的参数，通常位于2和3之间（有时也在该区间外） ^[51] 。

图4-5 幂律函数尺度不变性示例

2.无标度网络的特征

如图4-4所示，无标度网络中具有较高度数的节点“升级”为枢纽节点，这些枢纽节点间的网络关系决定了无标度网络的特性 ^[52] 。具体而言，无标度网络满足如下特征：

（1）鲁棒且脆弱性

鲁棒性（Robustness）是一种衡量网络结构的特征，也被称为健壮性，具体指在异常错误或者过载等情况下网络系统的生存能力 ^[53] ；脆弱性（Vulnerability）具体指当网络遭受蓄意攻击时系统所体现出来的正常运转能力 ^[54] 。当网络出现异常情况或者遭受外部攻击时，如果仍然能正常运转则具有良好的鲁棒性；如果网络瞬间崩溃，则认为该网络具有脆弱性。即鲁棒性指网络抵御干扰或攻击能力强，脆弱性指网络抵抗干扰或攻击能力差。

既鲁棒又脆弱看似是矛盾的，但实际上无标度网络恰恰是鲁棒且脆弱的。无标度网络中存在着少部分度值较高的Hub节点，这些节点连接着大量度更小的普通节点，这种层级关系使得网络具有一定的容错性。如果随机破坏无标度网络中的节点，显然普通节点被成功破坏的概率远高于Hub节点。由于这些节点具有很小的度并不会对整个网络的连通产生较大的影响，整个网络具有良好的鲁棒性。即便随机破坏了Hub节点，因为网络中还有其他Hub节点，整个网络原有的连通性同样不会受到较大影响。因此，无标度网络具有鲁棒性。Hub节点虽然提升了网络的信息传输效率，但使得网络难以抵御外部的蓄意攻击。如果定向地攻击Hub节点，由于它们连接着大量的普通节点，这些普通节点除了通过Hub节点之外并没有其他传播信息的方式和环路，则整个网络将变为多个相对离散的图，极大影响原网络的连通性。因此，无标度网络又具有脆弱性。足以可见，Hub节点对于无标度网络而言是个“双刃剑”。

此外，科恩等人 ^[55] 利用逾渗理论 ^[68] （详见 1.4节逾渗理论与晶格模型 ）证明无标度网络的逾渗阈值近似为0，即网络中随机破坏任意数量的节点并不会破坏整个网络原有的连通性 ^[56] ，这与第2章介绍的随机网络具有显著的不同（随机网络的逾渗阈值为节点总数的倒数 ^[57] ）。

（2）聚集系数随节点度数升高而降低

无标度网络中节点度值越高，网络聚集系数（Clustering Coefficient）越低，并且同样满足幂律分布 ^[58] 。回顾聚集系数的定义：假设网络中某一节点与 k 个节点相连，则这 k 个邻居节点之间最多可能存在的连边有 k （ k -1）/2条。该节点的聚集系数定义为 k 个节点之间实际存在的边数与最多可能存在的边数之比。网络中所有节点聚集系数的平均值称为该网络的聚集系数。

该特性表明无标度网络中度数较低的普通节点往往从属于某些致密的子图中，如图4-4 b所示可近似看作两个子图，这些子图之间通过其他的Hub节点互相连接。

（3）节点之间的平均距离较小

无标度网络中节点与节点之间的平均距离相较于其他网络而言较小。对于多数不规则网络，如小世界网络 ^[59] （详见 第3章小世界现象 ），该距离与其他高度规则的网络相比非常小。例如，科恩和哈夫林 ^[60] 证明幂指数 γ ∈[2，3]的无标度网络节点之间的平均距离 d ～ln（ln N ），其中 N 为网络节点数。而在规则网络中，节点之间的平均距离为

其中， d _ij 表示节点 i 与节点 j 之间的距离， N 为网络节点总数。

此外，无标度网络中Hub节点度值越高，节点之间的平均距离越短。易知当Hub节点度值增加时，网络中越有可能使用远距离路径传递信息，这构成了小世界现象的基础。

4.3.3 无标度网络的典型构建模型

生活中似乎很多网络都表现出无标度的特性，例如跨银行支付网络 ^[61] 、语义网络 ^[62] 等，然而布罗伊多等人 ^[63] 经过统计分析发现许多网络实际上并不符合无标度特性，因此无标度网络并不是随随便便就出现的。著名数学家保罗·厄多斯等人 ^[64] 迭代地随机选取两个节点添加连接以生成一种随机网络，经分析这种随机网络并不满足无标度特性，说明无标度网络是由特定的生成模型生成的。

1999年巴拉巴西在提出“无标度网络”这一概念的同时，提出了基于 偏好依附 （Preferential Attachment）的幂律分布生成机制 ^[1] ，并由多罗戈夫采夫 ^[65] 等人计算得到解析解。所谓偏好依附指 “新节点”与“旧节点”相连的概率 ^[66] 。由不同偏好依附规律而产生的无标度网络构建模型存在细微差异，主要分为BA模型 ^[1] 、适应度模型 ^[67] 、局域世界演化模型 ^[68] 、分层模型 ^[69] 等。

1.BA模型

BA模型（The Barabási-Albert Model）是构建无标度网络的基础模型，也是第一个无标度网络构建模型 ^[70] ，有时也称为“富者更富” ^[47] 模型。生成无标度网络的关键是保证节点度值的分布满足幂律分布，即新加入网络的节点以非均匀的概率分布与原有节点建立连接，原有节点的邻居节点越多，被连接的概率越高。该过程可使得“富人”更“富”，度值较高的节点度值会越来越高。

具体而言，BA模型基于以下两个假设。

● 生长机制 ：网络随着时间的推移不断有新的节点加入，即网络自身的规模在逐渐扩大。

● 优先连接 ：新加入网络的节点优先与已有较多连接的节点相连。

生长机制模拟的是现实生活中各类网络规模的不断增大，例如互联网中新创建的网页、银行系统中新开业的银行、航空网络中新运营的机场等；优先连接则模拟的是“富者更富”，例如新创建的网页一般会链接到较为知名的网站，新运营的机场会优先考虑与大型机场之间建立航线等。因此，BA模型中节点 n _i 的偏好依附满足：

其中， k _i 表示节点 i 在原网络中的度值， n 为网络中原有节点总数。

基于BA模型构造无标度网络步骤如下所述。

① 节点数量增长 ：假设网络 G 中包含 n 个节点，节点之间共有 e 条连边，每个时间步内 G 中增加一个新节点。

② 节点连接建立 ：新加入网络 G 的节点与网络中已有节点建立 m 个连接，且 m ＜ n 。

③ 优先连接选择 ：新加入节点与原有节点之间建立连接时优先考虑度值较高的节点，则新节点与节点 n _i 相连的概率满足式（4-14）。

经过 t 个时间步后，网络中共包含节点 n + t 个，以及 e + mt 条连边。BA模型构造的无标度网络与真实的无标度网络仍然存在一些差异，例如没有致密连接的小社群等。此外，在现实网络中式（4-14）基本不会为0，即新节点与孤立节点连接的概率不为0。巴拉巴西通过控制变量法进一步证明了生长机制与优先连接两个基本假设是构建无标度网络的必要条件 ^[1] ，若网络中一直保持 n 个节点，节点之间不断进行优先连接，那么大约经过 n ² 个时间步后网络中所有节点相互连接，节点度值分布不再满足幂律分布，此时无法构成无标度网络。

2.适应度模型

BA模型存在一个明显的缺陷，即网络中存在越久的节点越容易拥有较高的度值，这与现实情况并不相符。例如，互联网中总会有一些新创建的网页在短时间内获得较高流量，进而成为热门网站；短视频平台上也经常会有一些新发布的视频瞬间火爆全网，成为“后起之秀”。为了解决这一问题，比安科尼等人 ^[67] 进一步提出了适应度模型（Fitness Model）。

适应度模型是一个综合评估新加入网络节点发展状况的无标度网络构建模型（例如新网页的创建、新银行的营业等），主要通过改进优先连接机制使得新加入网络的节点的度值也能在短期内迅速增加。为了整合不同网络节点竞争连接的不同能力，适应度模型为网络中每个节点分配了一个吸引因子 γ _i ，则修正后的优先连接机制为

吸引因子的设置在一定程度上衡量了不同节点对新节点的吸引能力，可以间接表示网页内容的重要性、产品的质量、银行的业务量等方面存在的差异。新加入网络的节点可能会优先连接到具有较高度值的节点（较高的 k _i 值），比如可能与知名度更高的网页相连接、与更加有名的演员进行合作、引用被引次数多的论文等；并且吸引能力较强的节点（较高的 γ _i 值），比如可能会选择内容更合适的网站进行连接、与有相关影片表演经验的演员合作、引用结论更加新颖的论文等。因此，在适应度模型中，节点的度与吸引因子共同决定了网络原有节点对新加入节点的吸引能力。

3.局域世界演化模型

BA模型与适应度模型均假设新加入网络的节点以一定的概率与整个网络的节点进行连接，然而在现实生活中这一假设有时并不成立。例如，某些地方银行首先要与上一级银行建立联系，然后才会与其他银行建立业务关系；新搬到某个小区的居民会优先与同一栋楼的居民相识；因此在 网络中存在新加入的节点只能与部分节点进行优先连接 。为解决这一问题，覃等人 ^[68] 提出了构建无标度网络的 局域世界演化模型 （Local-world Evolving Network Model）。

在局域世界演化模型中，每个节点仅具有本地连接信息，因此仅能在部分区域中进行优先连接。该模型从现有网络的全部节点中随机选择 M 个节点作为“ 局域世界 ”，无标度网络生成算法如下：

①首先将网络初始节点数量 n ₀ 和连边的数量 e ₀ 设置为较小值。

②每个时间步在网络中添加一个新的节点，依据优先连接机制与局域世界中的 M 个节点建立 m 条连接（ m ＜ M ＜ n ₀ ），其中每一步的连接概率∏ _Local （ k _i ）为

易知，经过 t 个时间步后生成网络中节点的总数为 n ₀ + t 。因此局域世界的规模 M ∈[ m ， n ₀ + t ]，并且将节点 i 选入特定局域世界网络的概率为

根据平均场理论 ^[71] ，假设网络中节点 i 的度值 k _i 为连续变量且 k _i 的变化率与∏ _Local-world （ k _i ）成比例，则节点度值 k _i 满足动力学方程：

由于 M 个节点的随机选择会随着时间 t 的增加促成局域世界连接，因此局域世界中节点的累积程度取决于随机选择过程 ^[72] 。假设式（4-19）成立：

其中，节点平均度值〈 k _i 〉=（2 mt +2 e ₀ ）/（ n ₀ + t ），代入上述公式得：

局域世界演化模型遵循与BA无标度模型相同的幂律分布 P （ k ）～2 m ² / k ³ ，并且经计算机模拟得出：当局域世界节点数量 M 从 m 逐渐增加到 n ₀ + t 时，构建的网络节点度值分布从指数分布逐渐过渡到幂律分布 ^[67] 。综上，局域世界演化模型成功地模拟了这种无标度网络的构建过程，其中节点仅拥有网络的局部信息，但是构造节点的机制取决于不同网络中实际的局部连接条件。

4.分层模型

不管是BA模型、适应度模型还是局域世界演化模型，其生成网络的节点度值分布均与时间 t （或新节点增加次数）有关。当 t 较大时，度分布逐渐满足幂律分布。受确定性分形的分层规则启发，巴拉巴西 ^[69] 等人提出了与增长时间无关的分层模型以构造无标度网络。

分层模型从网络中的最小单元开始，通过自相似的层次叠加来迭代生成无标度网络。其中这个最小单元称为模体（Motif），指序列中的局部保守区域或者是一段序列中的固定序列模式 ^[3] 。网络以迭代方式构建，每次迭代都重复并重用之前步骤中生成的节点（或模体）。如图4-6所示，分层模型选定一个节点为网络的初始根节点，并以“ 三节点两连接 ”作为一个模体，具体生成过程如下：

图4-6 分层模型示例（三节点两连接） ^[69]

当 N =0时，在网络中增加两个节点，并将每个节点连接到初始根节点，构成一个由三节点两连接组成的模体。

当 N =1时，在网络中添加两个模体，每个模体与 N =0创建的网络相同（相当于副本），并将这两个模体的每个底部节点连接到整个网络的初始根节点，即根节点将增加四个新连接。

…

当 N = n -1时，继续在网络中添加两个模体，每个模体包含 3 ⁿ ^-1 个节点，与 N = n -2时迭代创建的网络相同，并将这两个模体的 2 ⁿ 个底部节点中的每个节点连接到整个网络的根节点。

通过上述步骤构建成网络后，利用数学分析获得模型的度分布 P （ k ）。由幂律分布图像知节点度分布的尾部由连接最多的节点或枢纽节点决定。显然，在复制模型中度值最大的枢纽节点是 N =0时选取的初始根节点。接下来的两个枢纽节点是在最后一步中添加到网络中的两个模体内部的根节点。因此，为了描述幂律分布的尾部仅关注枢纽节点即可。当 N = i -1时连接最紧密的初始根节点度值为 2 ⁱ ⁺¹ -2 。在下一次迭代中，此根节点的两个副本将出现在两个新添加的模体中。随着进一步迭代，当 N = n -1时初始根节点的 3 ^n-i 个副本将出现在网络中，但是两个新创建的副本在下一步迭代时不会增加自身的度值。因此 n 次迭代之后，网络中存在（2/3）3 ^n-i 个节点，其度数为2 ⁱ ⁺¹ -2。利用累积度分布计算网络中节点度值分布的幂指数，则节点度值分布幂律函数尾部满足：

因此，以三节点两连接为模体的分层模型构建的无标度网络其度分布的幂指数为

研究人员也对不同模体构造的无标度网络进行了探究，当以“五节点四连接”作为模体时，生成网络节点度分布幂指数 γ =1；当以“四节点三连接”作为模体时，幂指数 γ =1+log4/log3 ^[73] 。事实上在无标度网络中一直存在着度值非常大的枢纽节点（如分层模型中的初始根节点）以及高度连接的致密结构（即模体）。在分层模型的任何步骤中，都存在两个度值较大的枢纽节点，它们的连通性大约是根节点连通性的一半。