复杂网络上的流行病传播与社会传播最新章节_王伟著

1.2 复杂网络上传播动力学国内外研究进展

复杂网络上的传播动力学按照其研究对象可分为三大类：生物传播、社会传播和社会—生物传播 ^[1] 。这三类传播有着紧密的联系。一方面，这三类传播动力学研究难度逐渐递增，前者是后者的研究基础，后者的研究则需借鉴前者的研究方法，也是前者的拓展和应用。另一方面，这三类传播动力学方法的理论框架互有借鉴之处。例如，在研究社会传播和社会—生物传播时，可以借鉴生物传播中常用的经典理论方法。下面将分别介绍这三类传播动力学的主要研究内容和最新进展。

1.2.1 复杂网络上生物传播研究进展

复杂网络上的生物传播主要研究的是“简单”传播，即两次连续接触导致感染的概率相同。生物传播是复杂网络传播动力学最主要的研究对象之一，主要包括计算机病毒传播和传染病传播 ^[1] 。为便于描述，称生物传播所传播的是“疾病”。生物传播研究具有悠久的历史。早在 1760 年，Bernoulli就提出了第一个天花疾病传播模型，它标志着传播动力学的诞生 ^[23] 。此后，针对不同的疾病类型，学者们提出了一些经典的仓室模型，包括易感态—感染态（SI）模型、易感态—感染态—恢复态（SIR）模型和易感态—感染态—易感态（SIS）模型等 ^[24] 。这些模型至今仍然在使用，不仅被用于描述传染性疾病，还被用于描述计算机病毒和信息扩散等。然而，20 世纪的相关工作大都忽略了接触模式和传播途径的重要性及其影响。直到复杂网络理论诞生后，学者们才真正意识到传播途径的重要性 ^{[1，25，26]} 。

2001 年，Pastor-Satorras和Vespignani首次利用复杂网络描述传播途径，进而研究它对传播动力学的影响 ^[26] ，引起了海内外学者的广泛关注，标志着复杂网络传播动力学的诞生。由于真实计算机病毒传播概率极小，他们想知道是什么原因导致计算机病毒长期存在于互联网中。通过爬虫技术，他们首先采集了从 1996 年 2月到 2000 年 3 月共 50 个月的计算机病毒传播数据。通过数据分析发现，计算机病毒的存活概率 P _s （ t ）随时间呈现出指数形式，即 P _s （ t ） ~ exp（－ t /τ ）， τ 表示该病毒的特征存活时间，如图 1-3 所示。这表明计算机病毒能长期存活于互联网中。他们进一步利用复杂网络描述互联网结构，发现当幂律度分布指数小于等于 3 时，系统不存在疾病爆发阈值，即任意大小的传播概率都会导致系统中存在病毒。这在一定程度上解释了为何计算机病毒会长存于互联网中。

图1-3 计算机病毒存活概率随时间的变化 ^[26]

自此以后，众多学者利用计算机模拟 ^[27-29] 和理论分析方法 ^[1，30] ，来探究传播途径（复杂网络结构）对传播范围 ^[31，32] 、爆发阈值 ^[33-37] 、传播速率 ^[38，39] 和可变性 ^[40，41] 等的影响。在研究网络结构对传播动力学的影响时，主要关注网络的宏观结构、中尺度结构和微观结构所带来的影响。在宏观层面，学者们主要研究度分布和权重分布的影响 ^{[26，42，43]} ，发现当度分布异质性很强时，爆发阈值为零 ^[26] ，但权重分布异质性增大爆发阈值 ^{[32，44，45]} 。在中尺度层面，学者们关注度关联、集群系数和社区结构所带来的影响 ^[46，47] ，发现正关联 ^[46] 、高集群系数 ^[48] 、强社区结构 ^[47] 更容易导致疾病爆发，而负关联 ^[46] 抑制疾病爆发。在微观层面上，学者们发现大度节点更容易被感染 ^[38] ，高权重边更利于疾病传递 ^[49，50] 。最近，学者们还研究了多层网络 ^[51-53] 、时序网络 ^[54] 和空间网络 ^[55，56] 结构对传播动力学的影响。

大数据时代给我们提供了更多机会来获取人类行为活动的相关数据，包括手机短信通信数据 ^[57，58] 、邮件发送数据 ^[59] 、网页访问数据 ^[60] 、网络通信数据 ^[61] 、网络搜索数据 ^[62] 、社交活动数据 ^[63] 等等。这些真实大数据让人们有更大可能挖掘出疾病传播的真实机制。通过真实数据分析，学者们发现人类行为活动具有阵发性和记忆性两个重要特性，并且发现它们对生物传播有显著影响 ^[64，65] 。阵发性体现在个体的等待时间、响应时间呈现出幂率分布形式，而非泊松分布，从而导致系统存在记忆性。 Vazquez等分析了阵发性对疾病传播的影响，发现它导致系统在很长一段时间内都存在疾病 ^[66] 。利用计算机模拟，Cui等发现回复时间异质性在初期利于传播，而后期抑制传播 ^[39] 。基于更新过程，Jo等发现当网络规模无穷大时，阵发性导致传播后期速度减缓 ^[67] 。此外，记忆性还体现在人类行为的空间记忆，即个体在一段时间后返回到他之前待过的地方。结构种群模型能很好地刻画空间记忆对疾病传播的影响 ^[55，68-71] （图 1-4）。用节点表示城市，连边表示城市间的交通。每个节点内有一定数量的人群，每个时刻人群会通过交通工具旅行。基于结构种群模型，学者们发现返回率对疾病传播范围有显著影响 ^[69] 。最近，Brockmann和Helbing发现城市间的有效距离是导致全球流行病爆发的重要机制 ^[72，73] 。他们指出疾病蔓延到某个城市的时间，并非取决于它与初始传播源的绝对距离，而是取决于两地之间的有效距离，形成同心圆。利用这一传播特性，他们准确地识别了 2003 年SARS流行病和 2009 年H1N1 的传播源，为预测和控制全球流行病传播提供了一些新思路。而在此之前，人们主要利用目标免疫策略 ^[74，75] 、熟人免疫策略 ^[76] 和基于社会传播的免疫策略 ^[77] 等方法，来控制复杂网络上的生物传播。

图1-4 结构种群模型示意图 ^[71]

1.2.2 复杂网络上社会传播研究进展

社会传播是复杂网络传播动力学研究的另一个重要课题，主要关注信息扩散 ^[78] 、革新采纳 ^[13] 、健康行为传播 ^[79] 和金融行为传播 ^[80] 等这类“复杂”的传播过程，即再次接触时的感染概率依赖于先前的接触，并且先前接触次数越多，感染概率越大。也就是常说的社会加强效应，这是社会传播与生物传播的差异所在。加强效应源于在真实社会传播中的行为采纳具有一定的风险性，因此个体在采纳行为之前都需要多方验证，以求最大限度地降低采纳风险 ^[81] 。为便于叙述，称社会传播所传播的是“行为”。

通过真实数据分析，学者们发现真实的肥胖 ^[82] 、吸烟 ^[83] 和情绪 ^[84] 等传播过程都存在加强效应。 2010 年，Centola做了一个真实社会传播实验 ^[79] 。他构建了一个人工结构的在线社交平台，发现高集群系数的社交网络更有利于行为传播。在个体层面，他发现行为采纳存在加强效应。 Karsai等分析了风靡全球、每月用户超过3 亿的Skype网络数据 ^[85] （图 1-5）。该数据记录了从 2003 年 9 月至 2011 年 3 月共 2738 天的Skype网络数据，包括用户注册和网络演化。为便于研究，他们仅选取有国家实名制的用户。结果发现自发地采纳Skype服务的概率是恒定的，而受邻居影响采纳Skype服务存在加强效应。此外，他们还提出了一个基于个体的传播模型来模拟Skype服务的采纳过程，并准确地预测了采纳过程。最近，他们分析真实数据还发现个体采纳行为的加强效应具有很强的异质性 ^[86] 。

图1-5 采纳Skype服务示例（瑞士地区） ^[85]

为描述社会传播中的加强效应，学者们已提出了一些经典的模型，包括马尔科夫社会传播模型和非马尔科夫社会传播模型 ^[21] 。在众多马尔科夫社会传播模型中，阈值模型最具代表性 ^[87，88] 。复杂网络上的阈值模型最早由Watts提出，他假设每个节点可处于活跃态或非活跃态，节点从非活跃态变为活跃态，当且仅当它的当前活跃邻居比例超过了某一阈值。利用渗流理论和计算机模拟，Watts发现最终的活跃比例 R （ ∞ ）随平均度‹ k ›的变化先连续增加，再非连续减小，如图 1-6 所示。后来，学者们进一步发现，初始种子比例 ^[89] 、集群系数 ^[90] 、社区结构 ^[91，92] 、结构多重性 ^[93-95] 和时序特性 ^[96，97] 对传播范围和爆发阈值有很大影响。一些基于Watts阈值模型的社会传播模型也被提出 ^[97-99] 。在真实社会传播中，加强效应源于个体对行为信息的记忆 ^[79，100] ，从而导致真实社会传播为非马尔科夫过程。学者们相继提出了一些非马尔科夫社会传播模型 ^{[79，80，100-104]} 。 Dodds和Watts发现，若个体收到多次信息的采纳概率是收到一次信息采纳概率两倍以上时，行为采纳比例非连续地增长 ^[100，102] 。 Chung等进一步证实了这一结论 ^[103] 。

图1-6 最终的传播范围随平均度的变化 ^[87]

1.2.3 复杂网络上社会—生物传播研究进展

在真实社会中，单个传播动力学过程甚少存在，绝大多数情况都是多个传播动力学过程相互作用、共同演化 ^[1，105] 。在生物传播中，相同疾病在感染个体时可能形成交叉免疫 ^[106-108] ，不同疾病之间可能存在协同传播 ^[109] 。例如，相同类型的计算机病毒都可导致同一计算机瘫痪，当计算机被一种病毒感染至瘫痪后，将无法被另一种病毒感染；在感染艾滋病病毒（HIV）之后，人的免疫力降低，导致更容易被其他疾病感染。早在 2005 年，Newman就研究了两个疾病在同一网络上先后传播 ^[110] 。他利用渗流理论，发现先传播的疾病会增大后传播的疾病的爆发阈值。当没有被第一个疾病感染的易感态节点能形成一个极大连通子图时，第二个疾病才可能爆发。后来，他又研究了两个疾病在一个网络上同时传播的情况，并提出了“竞争渗流理论”：在热力学极限下，可以视为传播速率快的疾病先传播完，然后传播速率慢的疾病在剩余网络上传播 ^[106] 。为研究两个竞争疾病在单个网络上传播，学者们还拓展了点对近似方法 ^[108] 。最近，Sanz等考虑不同疾病传播途径的差异性，把耦合疾病传播模型拓展到了双层耦合网络上，并运用异质平均场分析了两个疾病的传播范围和爆发阈值 ^[107] 。在社会传播中，人们可获知来自Facebook、Twitter、YouTube等各种媒体信息。然而，个体有限精力导致这些信息传播相互竞争，最终导致只有少许信息被许多人接收 ^[111-114] 。 Glesson等发现多个社会传播导致信息流行度呈现出胖尾形式 ^[114] ，并且网络结构、记忆长度对信息流行度有很大的影响 ^[112] 。

社会传播和生物传播往往相互作用、共同演化。最为经典的例子就是疾病的爆发会引发关于疾病信息的扩散。在疾病爆发时，人们会通过各种渠道传递关于疾病的信息。当获知关于疾病的信息时，人们会采取勤洗手、少出门等一系列简单有效的防御措施来保护自己，从而减小被疾病感染的概率 ^[115-119] 。如此一来，社会传播和生物传播便形成了非对称耦合传播动力学，这也是复杂网络传播动力学研究的一个新方向 ^[120，121] ：社会—生物传播。这也为疾病控制提供了新的思路，即利用信息扩散来控制疾病传播。Funk等最早研究这一方向，他们提出了在单个网络上的信息—疾病传播模型 ^[115，122] 。在模型中，假设感染态个体可以传递疾病和信息给邻居。当不存在网络结构时（即均匀混合人群），他们发现疾病传播范围减小，但疾病爆发阈值不变。然而，在晶格网络上，疾病爆发阈值增加（图 1-7），这意味着利用信息扩散能很好地控制疾病传播。最近， Granell等利用无意识态—意识态—无意识态（UAU）模型来描述通讯网络上关于疾病的信息扩散，用SIS模型来刻画接触网络上的疾病传播 ^[77] 。他们假设接收到信息的个体会采取免疫措施，从而降低被疾病感染的概率；被疾病感染的个体一定知晓关于疾病的信息，从而促进信息扩散。利用离散马尔科夫链方法，他们发现疾病爆发阈值与信息扩散速率、通讯网络结构和接触网络结构密切相关，并且信息扩散增大疾病爆发阈值。他们还研究了大众媒体对信息—疾病传播动力学的影响，发现它能有效地抑制疾病传播 ^[123] 。

图1-7 二维晶格网络上的信息—疾病传播演化版图 ^[115]