由于互联网信息技术的发展与普遍应用,现在人们的生活和工作每天都要使用互联网,比如通过互联网社交、通信等,因此,各种类型的网络也应运而生。下列将介绍三种不同类型的网络。
规则网络是指根据所有已知的网络拓扑并遵守既定的结构而得到的网络,其中最常见的有最近邻耦合网络、星型网络以及全局耦合网络。
假定网络系统中的所有节点仅与其附近的邻节点连接,则这类网络称为最近邻耦合网络系统。这是一种已被人们普遍重视的最稀疏的规则网络模式。例如,多个人手拉手站成一条长线或者围成圆圈,这样就形成了一种最近邻连接网络,其中,两人间的牵手就是二人的最直接联系。这一网络概念也运用在了许多技术网络当中,比如传感网中的网络节点都具有近邻特征,因此形成最近邻耦合网络,也就是说,当两节点的最近距离达到感测器所能够察觉到的范围时,两节点之间便能够实现直接通信。这种类型的网络有一个显著特点,网络的拓扑结构是以其相对位置来确定的,而且网络的拓扑结构也会随着节点的不同而改变。
星型网络是指在互联网上仅有一个中央节点,其他节点都单独连接在中央节点上的网络。中央节点的度数最大,比总节点数少1,而网络中的其余节点的度数均为1,如图1.15显示,图中共有5个节点,节点 A 是网络的中央节点,其度数均为4,而其他节点的度数均为1。此外,由于星型网络系统具备节点可扩充、容易迁移等的优点,而且每个节点的失效对整个网络并没多大的影响,例如以太局域网,但星型网络的中央节点对节点的影响非常大,对其核心节点的需求也非常高,倘若出现问题,便导致整个系统瘫痪。
图1.15 星型网络示意图
全局耦合网络代表着网络中任何两个节点之间都相互连通,即节点间的距离和聚类系数均为1。因此,全局耦合网络具有距离相对比较短、传播快速等优点,但因其节点的数量多、节点聚集程度较高,这在现实中的实际传播较为复杂。
还有一种常用的网络结构是随机网络。Erdös和Rényi将随机网络(ER)引入图论中,由此形成了一种能够反映各种随机因子的典型的随机网络模型(ER模型)。与常规的网络化技术相比,这种模型采用基于随机网络技术的节点,数据具有不确定性,既能反映出运动的时间等多种量化指标,其成本、资源消耗、效益、损失等都会是一个随机的变数,这一特点将会使得构成网络结构的各种行为具有随机性和偶然性。
具体来说,ER模型的构建方式主要有两类:第一类是给多个不加任何重边的节点,可以用多条边来进行连接,组成一个随机数,并将网络以一定的概率出现构成概率空间。第二类是在由多个节点组成的网络中,其中任何两个节点都以一定的可能性连接在一起,从而产生一个随机网络,在节点数量足够大的情况下,虽然各节点的关联具有随机性,但其度数分布基本遵循泊松分布。
复杂网络仍然是不容忽视的一种常见网络。我们主要介绍两种复杂网络:小世界网络和无标度网络。
小世界网络是建立在所熟知的“六度分割理论”基础上的,简单来说,在一个社交网络中,每个人至多通过五个人就可以连接到任何一个陌生人。美国的Watts和Strogatz在1998年发明了一种复合网络结构模型,该模型不仅具有群组特征,而且平均路径长度也很小。由于小世界网络的路径长度较短,聚类系数较高,因而在这种网络中,节点之间的信息可以快速地进行传递。
在小世界网络的构造原理中,提出了一个由多个节点所组成的环状网络,每个节点都与其最邻近的偶数个节点相连。除此之外,每个边都有机会被随机地进行连接,或是重复连接。重复连接的概率是一个相当关键的参数,这一概率对网络的平均路径长度和聚集系数相当重要,概率的取值在0到1之间。在概率为0的时候,该网络的聚集系数很高,并表现为一个完整的规则网络;在概率为1的情况下,该网络的聚集系数很低,并表现为一个完全的随机网络。
无标度网络是指通过对大量的实际互联网数据进行分析,形成一种基于BA模型的无标度互联网模型。该模型是在1999年由Barabasi与Alber [ 6 ] 共同开发的,具有“马太效应”,具体来说,在一个节点数量不多的社交互联网中,存在着数量众多的连接,但实际上这些节点的数量却非常少。因此,无标度网络具有增长的性质和优先连通的特点,那么新的节点会随着其节点的增加而增加,而新的节点则会根据“优先连接”的特点,与不同的节点进行连接,现实中大部分的网络具有非尺度特征,例如Facebook,其中包含一些无标度网络,比如用户访问的网站和社交网站的“明星”这样的网络。而无标度网络是基于它自身的增长性和连通性而产生的。在一个包含多个节点的社交网络中,在原有网络的基础上每添加一个节点,并使之与原来的节点连接,这就是优先连接和网络的增长性。通过新添加的节点与原来的节点在网络中的性质和连接概率,可以建立相应的模型算法。
在社交网络分析、网络动力学和复杂系统中,中心性度量是一类算法,可以根据节点或行为者在网络中的相关性对其进行排序。中心性度量的最早可追溯到20世纪50年代 [ 58 ] ,经典的中心性度量包括:度中心性(degree centrality),根据节点的连接数量来判断其重要性;接近中心性(closeness centrality),认为最重要的节点是到达其他节点最短路径最短的节点;介数中心性(betweenness centrality),认为最重要的节点是在网络中起到桥梁作用,能有效地连接其他节点的节点 [ 59 ] 。
在这些度量指标(以及其他如特征向量中心性及其衍生指标 [ 60 ] )中,节点重要性的判断主要取决于网络的拓扑结构,也就是行为者在网络中的结构位置。从20世纪60年代 [ 61 ] 到80年代 [ 62 ] ,节点在网络中传播信息的能力也被纳入了中心性的度量。后者可以用于分析具有动态和表达性信息流的网络。因此出现了基于流量的介数中心性和接近中心性 [ 63 ] 等指标,以及基于传输信息内容的指标,如TRank [ 64 ] 和TS-SRW [ 65 ] 。随着复杂系统和动态网络的研究不断发展,基于时间网络的中心性指标也相继出现(如IDM-CTMP [ 66 ] 和无参数混合 [ 67 ] 等)。甚至还有受博弈论 [ 68 , 69 ] 启发的中心性度量。中心性问题在不同背景下的专门化也导致了针对特定社交网络的多种度量指标(如转发影响力 [ 70 ] 、熟人得分 [ 71 ] 和社交网络潜力 [ 72 ] )。目前已经有超过100种不同复杂程度和适用性的中心性度量。
度中心性为每个节点的连接数量(度)。度越高的节点,表示其与其他节点有更多的直接联系,也就越中心。度中心性可以反映一个节点在网络中的活跃程度和影响力。总之,度中心性是一种简单直观的中心性度量方法,它通过计算节点的连接数来评估节点在网络中的地位和影响力。这是最基本的中心性指标之一。
接近中心性为每个节点到其他所有节点的最短距离之和。距离总和越小,表示该节点到其他节点的平均距离越短,也就越中心。接近中心性反映了一个节点到达网络中其他节点的便利程度。距离越短的节点,表示它能更快地接触到网络中的其他节点,从而拥有更强的影响力和控制力。因此,接近中心性突出了节点在网络中的地理位置特征,能够识别出那些位于网络中心的重要节点。这是一种基于节点间距离的中心性度量方法。
网络中每对节点之间的最短路径经过一个节点的次数为介数中心性。经过某节点的最短路径数越多,说明该节点在连接网络中其他节点时起到了重要的桥梁作用。介数中心性就是根据每个节点被包含在最短路径中的次数来评估其重要性。介数中心性反映了一个节点在网络中的中介和控制能力。越是位于网络中的关键桥梁位置的节点,其介数中心性就越高,也就越重要。
这种基于最短路径的中心性度量方法,能够识别出那些在网络中起到关键连接作用的节点,是分析网络结构和信息传播的重要指标。
介数中心性主要是由美国社会学家Freeman [ 44 ] 提出来的一个概念,用于度量一个点在多大程度上位于图中其他“点对”的“中间”。他认为,如果一个点处于多对点之间,那么它的度数一般较低,这个相对来说度数比较低的点可能起到重要的“中介”作用,因而处于网络的中心。根据这个思路可以测量点的介数中心性。中心性测量为发现不同学科的连接点或进化网络中的支点(tipping point)提供了一种计算方法。这种图论方法的优势在于,因为它独立于任何知识领域,所以其应用范围就极其广泛。而且这种方法只研究网络中少量的连接点,而不是整个网络,这样就有了很大的实际应用价值 [ 73 , 74 ] 。
在Burt [ 75 ] 关于“结构洞”的著名论文中,他提出,那些连接其他彼此不相连的节点或者网络部分的个人能通过“经纪人”位置持续获得收益。在贸易网络的例子中,他们可以作为中间人获取额外收益。在流言网络中,他们能够阻碍或者操纵这些信息在网络中传播。一个度中心性不高的节点却可能有很高的介数中心性:若一个节点同时连接两个其他部分完全相离的网络,尽管其度中心性可能只有2,但该节点很可能因为占据两个网络间唯一能够联系的通道而具有很大的影响力。
在图1.16中, B 就是一个结构洞,起到桥梁的作用,如果将 B 节点删除,那么该图就会分裂为多个子图。
一种测量介数中心性的方法就是计算网络中节点出现在各对节点之间的最短路径(测地距)上的次数。网络中两个节点之间的最短路径指的是连接两个节点边数最少的路径。介数中心性体现了节点控制其他节点交换信息和资源的潜在能力。
假设节点 j 和 k 必须通过节点 i 才能交换信息和资源,那么节点 i 对节点 j 和 k 之间交换的信息或资源的时间安排以及内容就会有巨大的影响。因此,节点出现的路径越短,网络中的节点能影响的信息交换和交流就越多。
图1.16 结构洞
介数中心性的计算公式如下:
无向图的标准化公式为
有向图的
其中, g jk 是节点 j 到达节点 k 的最短路径的数量, g jk ( v i )是节点 j 到达节点 k 经过节点 i 的最短路径的数量, N 是指该网络中的节点数量。
介数中心性计算方法简要说明,以无向图1.17为例。
图1.17 社交网络无向图
我们计算节点 D 的介数中心性。 A 到 E 的最短路径有2条, A 到 E 经过 D 的最短路径有1条,所以这一条最短路径算1/2;反过来,由 E 到 A 也是1/2。 F 到 E 及 C 到 E 这两条最短路径都必须经过 D ,可以加上2;反过来,由 E 到 C 及 E 到 F 又加上2。另外 B 到 C 及 B 到 F 都有两条最短路径,最短路径分别经过 D 和 A ; C 到 B 及 F 到 B 亦如此,因此再加上2。那么 g jk ( D )加总就是7。标准化要除以( N -1)( N -2)=20,所以 C′ B ( D )=7/20。
介数中心性(衡量中介性有多高)指标衡量了一个节点作为媒介的能力,也就是据于其他两节点快捷路径上的重要位置性。如果中介节点拒绝做媒介,这两节点就无法沟通,占据这样的位置越多,就代表它具有越高的中介性,越多的人联络时必须要通过它。如果一个网络有严重的切割,形成了一个个分离的组件,正如Burt所说的两个网络间有结构洞。如果有一个节点在两个分离的组件中间形成纽带的话,这个节点就是一个切点(cut point),也就是我们俗称的桥(bridge,学理上桥是沟通的线,而不是节点)。而在网络分析中,之所以会这么重视桥的概念,就是两个分离的大团体间,若彼此信息要交流、意见要沟通、行动要协调的话,作为桥的人就非常重要。能够连接两个群体之间的互动与交流,其中介性就很高,在社交网络分析中衡量一个节点作为桥的程度的指标就是中介性 [ 76 ] 。
基于流量的介数中心性
(flow betweenness centrality,FBC)。FBC表示节点
k
在所有节点对之间的最大流量中所起的中介作用。具体计算为:
,其中
K
表示除节点
k
以外的所有节点对,
f
kij
表示需要经过节点
k
的
i
到
j
的最大流量。为了消除节点数量对FBC的影响,还需要对FBC进行归一化,这种基于流量的介数中心性可以更好地反映节点在网络中的中介作用,而不仅仅是基于最短路径的传统介数中心性。
基于流量的接近中心性
(flow closeness centrality,FCC)。传统的接近中心性是基于节点到其他所有节点的最短距离。而FCC则是基于节点到其他所有节点的最大流量。具体计算为:
,其中
f
kj
表示从节点
k
到节点
j
的最大流量。这种基于流量的接近中心性体现了节点在网络中的通信能力,即节点可以向其他节点传递信息的能力。与传统的基于距离的接近中心性不同,FCC考虑了网络中信息传播的实际机制,更贴近现实情况。
基于传输信息内容的社交网络节点影响力指标的原理为,单纯依赖用户的关注者数量等简单指标并不能准确反映用户的真实影响力,需要结合内容传播等更多因素来综合评估。总之,这些方法都试图从用户的社交互动和内容传播等多个维度来评估用户的影响力,而不仅仅依赖单一的结构特征。这有助于更准确地识别出在特定话题上有影响力的用户。
基于时间网络的中心性指标的计算原理主要涉及以下几个方面。
每个用户通过一个特征向量来表示,该向量包含了与用户在在线社区中的社交行为和活动相关的信息。特征向量中的每个元素反映了用户在特定在线社区中的权威性水平。例如,在问答社区中,可以包括用户回答的数量、获得的最佳答案数量、收到的投票数等。对特征值进行对数变换和归一化处理,以增强权威用户与非权威用户之间的对比度,并使所有特征值在[0,1]区间内具有可比性。使用多元贝塔分布来建模用户特征向量的概率密度函数。多元贝塔分布提供了极大的灵活性,能够模拟多种形状的概率分布,从而更好地拟合用户数据。用于估计多元贝塔混合模型的参数包括混合系数和每个贝塔分布的参数。EM算法通过迭代期望步骤(E步骤)和最大化步骤(M步骤)来优化模型参数。使用集成分类似然贝叶斯信息准则(ICL-BIC)来估计混合模型中组件的数量,选择使ICL-BIC最小的组件数。通过EM算法得到的后验概率来确定每个用户特征向量属于哪个组件,然后选择包含最高分值向量的多元贝塔组件,将其对应的用户识别为权威用户。基于连续时间马尔可夫过程(CTMP)来预测社交网络用户的影响力动态。在该模型中,节点代表用户,边连接连续时间上讨论同一主题的用户。通过在大规模数据集上的实验研究,比较提出的评估框架内的不同的权威性度量指标,并验证所提出算法的预测性能。
这些原理共同构成了基于时间网络的中心性指标的计算方法,旨在自动识别在线社区中的权威用户,并预测他们的影响力动态。
受博弈论启发的中心性指标的计算原理主要基于以下几个方面。
将社会网络中的个体视为博弈论中的参与者,网络中的连接表示参与者之间的互动或流动关系。这种结合允许使用博弈论的工具来分析网络中的权力和影响力结构。在合作博弈的框架下,网络中的个体被视为同时参与一个博弈,这个博弈代表了参与者之间的社会利益。网络的限制条件,如连接的方向性,会改变博弈的性质,将其转变为一个具有限制的合作博弈。在博弈论中,Shapley值是用来度量参与者在博弈中所获得收益的一个公平指标。在网络中心性分析中,Shapley值被用来评估节点在网络博弈中的影响力。定义一系列中心性度量方法,这些方法基于博弈论的观点,评估节点在网络中的重要性。这些度量包括发射(emission)、介于(betweenness)和接收(reception)中心性组件。提出的中心性度量可以分解为三个部分:发射、介于和接收,这些部分分别代表了节点在网络中的不同角色和影响力。所提出的中心性度量满足特定的稳定性和公平性条件。稳定性意味着增加一条连接不会降低任何节点的中心性;公平性则涉及连接对起始节点和接收节点中心性影响的比率。引入一个参数化的函数族,允许根据不同的社会网络和博弈情境调整中心性度量的敏感度。开发算法来计算这些中心性度量,包括用于确定网络中最重要的节点的算法,以及用于计算纯策略纳什均衡的算法。最后通过在真实世界数据集上的实验,验证所提出的中心性度量方法的有效性。
总的来说,受博弈论启发的中心性指标的计算原理,是将社交网络分析与博弈论相结合,通过定量的方法来评估网络中个体的中心性和影响力,这些方法不仅考虑了网络的结构特征,还考虑了网络中个体之间的互动和战略行为。
20世纪60年代,Milgram首次提出六度分离理论,为小世界现象与小世界理论的提出奠定了基础。小世界现象是指世界上所有互不相识的人只需要很少中间人就能建立起联系。1967年,哈佛大学心理学教授Stanley Milgram根据这概念做过一次连锁信件实验,尝试证明平均只需要五个中间人就可以联系任何两个互不相识的美国人。这种现象说明任何两个素不相识的人,通过一定的方式,总能够产生必然联系或关系。
由于社交网络的包围渗透以及社交媒体的蓬勃发展,具有相同志趣、相似诉求的人们在持续交互中自发组建起规模各异的网络社群,形成了众多相对封闭、互动活跃的社交圈层。正如Sela等在研究中指出社群是在社交网络中扩大信息传播的有效方法,随着虚假新闻的大量涌现,人们倾向于通过参与传播的用户数量来评估新闻的可靠性。由此可见,网络社群以其高效的圈层传播优势,在网络舆情传播领域展现出强大的组织动员能力,如在微信群、朋友圈中时常可见某热议话题的刷屏现象。网络社群极大地促进了正面有用信息的传播,而其圈层封闭性与私密性也为一些负面不良信息的扩散提供了“社交黑箱”,大大增加了舆情监测与管控的难度。因此,基于群组传播的社交网络俨然成为竞争性舆情信息传播的助推器。
与物理世界类似,在线社交网络也是由多个社区构成的。社区内部的节点间连接紧密,而社区与社区之间的连接相对稀疏。这些连接紧密的节点集合就被看成一个群组 [ 17 ] 。社区发现研究是利用网络中的多维信息,挖掘网络中隐藏的社区结构。由于在线社交网络中的社区发现可以有效地提高各类社交应用的效果,例如社交推荐、用户行为预测等,因此,在线社交网络中的社区发现具有重要的研究价值和研究意义。
群组的相关研究主要涉及两个研究方向。一是非重叠群组。非重叠群组是指群组中的成员仅属于一个群组,不会同时属于其他群组。其特点是每个成员的身份和角色在群组中是唯一的,成员身份唯一,不会在其他群组中出现。群组之间的界限清晰,成员不会跨越群组。群组内部的决策和意见相对独立,不受其他群组直接影响。非重叠群组示意图如下图1.18。二是重叠群组。重叠群组是指群组中的成员可以同时属于多个不同的群组。在这种情况下,一个成员的身份和角色可能在不同的群组中有所重叠,从而影响其在决策过程中的影响力和行为。其特点是成员身份不唯一,可以在多个群组中重复出现。群组之间的界限不明确,成员可以在不同的群组间流动。群组内部的决策和意见可能受到其他群组的影响。重叠群组能够更加真实地反映社交网络中的社团特征。在在线社交网络中的不同话题的引导下,一些用户可以集聚成多个重叠的社团组织 [ 77 ] ,重叠群组示意图如图1.19。
图1.18 非重叠群组
图1.19 重叠群组
在社交网络分析中,识别重叠群组和非重叠群组是理解网络结构和动态的关键步骤。现实世界的真实数据可以通过图来表示,图中的节点代表人或对象,边代表节点之间的关系。随着技术的发展,生成的数据量越来越大,图的规模也越来越大。如何从这些数据中提取有用信息成为一个热门研究话题。因此需要有条理的算法从这些原始数据中提取有用的信息。这些非结构化图形本质上并不是分散的,展示了基本实体之间的关系。基于这些关系识别社区可以提高对图形所代表应用的理解。
社区检测算法是将图形划分为小规模簇的解决方案之一,其中节点在簇内密集连接,跨簇连接稀疏。这种算法主要可以归为两大类:非重叠社区检测算法和重叠社区检测算法。
非重叠社区检测算法
非重叠社区检测算法要求每个节点只属于一个社区,主要包括图聚类方法、模块性基础算法和动态方法。图聚类方法通过图的分割将图划分为强连接的组件子图。这是一种分裂方法,形成树状图,显示每个层级的不同的分区。Girvan和Newman是社区检测算法领域的两位杰出发明者。他们提出了一种基本的社区检测算法,该算法基于图划分,被称为Girvan-Newman(GN)算法 [ 78 ] 。在这种算法中,社区中节点的划分是通过边的介数中心性来完成的。边的介数中心性是一种度量,它倾向于支持位于社区之间的边,而反对位于社区内部的边。这种算法是一种分裂算法,它移除所有边中具有最大介数中心性的边。Girvan和Newman重新计算最短路径介数。通过迭代移除边,图被划分为多个簇,每个簇包含彼此相关的节点。这种方法属于层次聚类,最终形成一个树状图,每个层级显示基于介数的不同数量的簇。
在基于模块性的算法中,模块性(modularity)在发现社区方面发挥着至关重要的作用。模块性是一种可以用来衡量检测到的社区质量的度量标准。它用于测量网络中连接的密度,取值从-1到1。这是一种基于层次聚类的方法,形成树状图。2008年,Blondel等 [ 79 ] 提出了一种基于模块性优化的简单社区发现方法,称为Louvain算法。这是一种启发式方法,最初应用于比利时移动电话网络中的200万客户的语种社区。它是一个可扩展的多层次层级结构方案。Louvain算法由两个阶段组成,这两个阶段会重复迭代进行。在初始步骤中,图被划分为与图中节点数量相等的社区,这意味着每个节点都表现为一个社区。之后,算法尝试通过将节点移动到其邻近社区来提高模块性。节点移动后,会在这些节点的所有邻居中实现最大的模块性增益。如果无法提高模块性,则节点将保留在其社区中。然后,相同的过程会应用于所有剩余节点。此阶段持续进行,直到无法进一步提高模块性为止。算法的下一个阶段是网络的重建。社区在新网络中被视为节点,而社区之间的关系被视为新网络的边,并构建它们的相对权重。这两个阶段迭代执行,直到没有更多的变化,并且获得最大的模块性。
LPA算法即标签传播算法,是由Zhu等 [ 80 ] 于2002年提出的一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。在LPA中,每个节点都被赋予一个唯一的标签,表示其潜在的社区归属。随后,算法通过迭代更新节点的标签,使得具有相似特征的节点逐渐拥有相同的标签,从而识别出网络中的非重叠社区。算法通常包括三个步骤。首先是初始化,即为每一个节点分配一个唯一的标签,然后随机选择一个节点,统计其邻居节点的标签分布情况,选择出现频率最高的标签作为该节点的新标签。若有多个标签出现频率相同,则随机选择一个作为新标签。重复节点标签更新步骤,直到标签分布不再发生变化或达到预设的迭代次数。LPA算法的核心在于节点的标签更新策略,它依赖于节点间的相似度和邻居节点的标签信息。在迭代过程中,节点的标签会向其邻居节点传播,直至达到稳定状态,此时具有相同标签的节点被划分为同一个社区。LAP算法由于较为简单高效,在社交网络分析、生物信息学、文本聚类及推荐系统等方面都有着广泛的应用。
在许多现实生活的应用中,图中节点之间的关系会持续变化。例如,在Facebook数据集中,许多用户加入Facebook,也有用户离开Facebook,或者取消关注群组。对于这种情况,我们需要一个能够动态适应这些变化的算法。Shao等人引入了一种名为吸引子算法(Attractor algorithm)的新型社区检测算法 [ 81 ] ,该算法基于距离动态。这是一种新方法,可以在网络中通过节点间距离变化自动发现社区。与Louvain算法不同,吸引子算法能够识别大规模网络中通常存在的小型社区或异常现象。最初,吸引子算法使用Jaccard距离公式来计算初始距离。在那之后,基于三种提出的互动模式:直接链接节点的影响、共同邻居的影响以及独有邻居的影响,模拟每个距离的动态。由于拓扑驱动的影响,共享相同社区的节点间的距离趋于减少,而不同社区之间的距离逐渐增加。最后,所有的距离都收敛为0或1。具有最大距离的边被移除,从而可以轻松地获得社区。吸引子算法可能会遇到收敛速度慢的问题,要求大部分边都收敛为0或1,这导致迭代次数增加,而这些边的社区归属已经相当明显。
重叠社区检测算法
重叠社区检测算法允许一个节点属于多个社区。连接划分的算法主要有四种:基于节点划分的算法;基于代理的算法,通过子网络的局部社区来识别社区;基于团的算法,团是完全连接的子图;基于三角形的算法,考虑三角形内节点的强凝聚力。
找到重叠社区已经有几种基于节点划分的算法。在重叠社区中,连接主要属于单一社区,因此基于连接的图划分是一种有用的方法。这里讨论一种基于连接划分的算法——LinkLPA算法。这是一种基于标签传播的连接划分算法 [ 82 ] 。该算法的主要思想是将重叠节点划分问题转换为非重叠连接划分问题。基于连接而非节点应用标签传播算法,以发现弱联系的错误划分并避免过度重叠。该算法包括两个阶段。第一阶段,为每个连接分配随机标签,并基于连接应用标签传播算法。通过评估Ahn等 [ 83 ] 提出的连接间相似性方法来解决联系,迭代更新标签以获得其邻接边中的高频标签。第二阶段,通过比较平均边数并合并相似的簇来处理过度重叠。
基于代理的算法用于大型网络。通常,它根据节点的连接性将图划分为子图,如自我网络。社区是通过从子图中获得的局部社区的联合来识别的。下面讨论一种基于代理的算法:DEMON代表网络模块化组织的民主估计 [ 84 ] ,顾名思义,该算法以民主方式允许每个节点对全球网络的有限视图进行社区投票。DEMON是大型图中寻找社区的一种局部优先方法。它在 自我网络 (ego network)上工作。自我网络包括节点及其所有邻居节点和它们之间所有边的集合。该算法包括两个阶段。第一阶段,标签传播算法被应用于在大型图的 自我减去自我网络 (ego-minus-ego network)上寻找局部社区 [ 85 ] 。当自我节点及其边从自我网络中移除时,自我网络就变成了自我减去自我网络。第二阶段,这些自我减去自我网络产生的社区被合并以获得全局社区。两个社区的合并基于用户提供的共同元素因子的百分比。
大多数由现实生活问题生成的图包含各种完备子图。 团 (clique)是每个节点都完全连接的子图。因此,在图中发现团在发现社区中扮演着至关重要的角色。下面描述了一种基于团的算法。
由现实世界问题生成的图遵循社区结构。Palla等 [ 86 ] 利用图的这一特性,引入了基于团的第一种算法,称为 团渗透方法 (clique percolation method,CPM)。为了最初发现社区,这种方法在图中找出所有最大的 k -团。之后将所有相邻的团合并成一个单一的社区,这些团之间共享 k -1条边。合并所有相邻团后得到的图显示了检测到的重叠社区。
基于三角形的算法是最新的,将三个节点以三角形连接,保证社区中的顶点之间有很强的内聚力。三角形可能有两种类型:第一种是社区三角形,其所有三个顶点都在社区内;第二种是切割三角形,有一个顶点属于另一个社区。
下面描述一种基于三角形的算法。Mojtaba等 [ 87 ] 引入了一种名为CoreExp的三角形切割方法,用于高效检测重叠社区。社区拟合度指标是检测社区的一种度量方式。找到拟合度指标的有效值是社区检测的关键步骤。因此,有许多可用的拟合度指标,如经典密度、相对密度、子图模块度、局部模块度以及导通性。Mojtaba等选择导通性指标的倒数作为发现社区的拟合度指标。此外,他们在计算衡量社区间连通性的拟合度指标时不是使用边数,而是使用三角形的数量。CoreExp由两个阶段组成。第一阶段,它利用拟合度指标检测非重叠的核心社区,该指标可以通过迭代过程轻松找出。第二阶段,找到属于其他社区的节点。CoreExp还最小化了分离效应和搭便车效应。分离效应将节点分配给拟合度值最大的重叠社区之一。而搭便车效应将两个社区合并以获得更好的拟合度值,但结果社区的拟合度值要比它们中的一个大。
实际上社交网络存在大量的社交群,一个群组的成员可以加入其他群组。这些处在不同地理位置的群组成员往往并不熟悉,但群组成员能够顺畅共享信息,这就为负面信息传播提供了巨大的空间和便利 [ 88 ] 。Rhouma和Romdhane [ 89 ] 认为在线社交网络分析就是对一个社会网络中两个人或更多个人之间的关系或联系的研究和理解。社交网络分析提供了一整套可视化分析社会网络关系的工具和方法,这些关系就是社交网络群组(社区)的构建结构。For tunato [ 90 ] 认为群组(社区)可以描述为在网络中可能共享或承担类似职责的一组个人。
Jia等 [ 91 ] 建立包含点对点传播与群组谣言传播模型,分析了模型的动态性和稳定性,更好地理解传播者的行为,为采取有效措施提供指导。Ghoshal等 [ 92 ] 利用组结构静态选择一组种子节点发布正面信息,以尽早有效控制错误信息。Ni等 [ 93 ] 考虑了群体结构,提出了一个基于群体的谣言阻断问题,即在给定预算的约束下,从所有群体中选择一组种子用户作为保护人,使不受谣言来源影响的预期用户数量最大化。在线社交网络中,用户不仅可能从直接朋友收到负面信息,还可能从自己加入的社交群组中收到错误信息,因此,在线社交网络上的私人群组极大地增加了负面信息的曝光率,提高了用户之间错误信息交互的频率。为降低负面信息的曝光率和负面信息的传播速度,Zhu等 [ 94 ] 考虑了在回音室效应作用下,利用网络中私有群体的解散策略,以最大限度地减少虚假信息的传播。
群组发现对于在线社交网络负面信息传播具有至关重要的影响。群组数量、群组规模、用户亲密度、社会强化效应对竞争性舆情信息的传播有不同的作用。群组划分中典型的聚类方法有 K -均值算法、 K -modes算法、层次聚类、图论分裂聚类算法以及CLARA聚类方法(clustering large application)等 [ 95 ] 。群组划分可理解为对用户的“聚类策略”,刘宇和吴斌 [ 96 ] 将群组分为三种:根据用户的角色身份形成固定用户群组,如朋友、家人等,或组成临时用户群组;随机形成的用户群组,如收听音乐直播的人,成员可随意加入或退出群组;根据一定规则确立的群组,如根据用户对项目喜好形成的兴趣群组。Tian等 [ 97 ] 利用 K -均值聚类算法根据用户相似度矩阵来完成群组划分,但该算法中一个迭代点只包含于一个群组中。Ntoutsi等 [ 98 ] 提出了一种聚类算法,算法开始时将每个成员都看成独立的,迭代计算两两用户之间的相似度。在群组的相似度大于指定阈值时就将它们归并在一起,最终实现用户分组。Sarwar等 [ 99 ] 提出了基于用户聚类的推荐算法。首先利用用户偏好评分信息采用聚类技术将用户划分到群组之中,然后在组内查找用户的邻居,这样做的好处是提高了邻居搜索的效率和推荐精度。康颖等 [ 100 ] 提出了一种三角形内点的多层群组发现算法(TMLCD),该算法从社交网络的基本拓扑图上得出该网络的初始社区效应,进而改善发现效果。Zhu等 [ 101 ] 提出了一种融入共同偏好和用户之间互动信息来进行群组划分的新方法。这种方法引入了一个新的参数共同社交行为(common social activity,CSA),并与其他方法参数一起来为目标用户查找分组。这些参数都作为最终聚类算法的输入值,以此来实现群组划分。
群组的应用非常广泛,例如在电商推荐系统、社交网络分析、社交网络营销等场景中。此外,群组也可以应用在政治舆论分析以及公共卫生监测等方面。
在电商推荐系统中,电商平台利用社交网络分析技术,识别用户之间的非重叠群组,根据群组特征进行商品推荐 [ 102 ] 。例如,通过分析用户的购买历史和社交关系,将具有相似购物偏好的用户划分为同一群组,并向该群组推荐相关商品。
在社交网络营销方面,企业利用社交网络分析技术,识别潜在的目标客户群体,并制定相应的营销策略 [ 103 ] 。例如,通过分析用户的兴趣爱好和社交关系,将具有相同兴趣的用户划分为同一群组,并针对该群组推出定制化的营销活动。
在政治舆论分析中,政治研究机构利用社交网络分析技术,分析不同政治立场的用户群体(即非重叠群组),了解公众的政治态度和舆论趋势。例如,通过分析用户在社交媒体上的言论和互动行为,将具有相似政治观点的用户划分为同一群组,并据此评估不同政治议题的支持度和反对度。
在公共卫生监测中,公共卫生机构利用社交网络分析技术,监测和预警疾病传播情况。例如,通过分析用户在社交媒体上发布的健康相关信息和社交关系,识别出潜在的高风险群组(如与已知病例有密切接触的群体),并采取相应的防控措施。
在数学中,超图是对图的概括,一条边可以连接任意数量的顶点。形式上,超图 H 表示为 H =( X , E ),其中 X 是一组元素,称为节点或顶点, E 是 X 的一组非空子集,称为超边或连接。
超图是图的一种推广,普通图的一条边最多连接图中的两个节点,超图中一条超边里面的节点不受数量的限制,可使任意数量的、任意属性的节点之间产生关联,而不仅仅是两个节点,在本质上与复杂网络中的边有所不同,复杂网络中的边可视为超边中只有两个节点的特例。普通图和超图的示例如图1.20所示。
图1.20 图和超图
1973年,Berge最早定义了超图。设有限集合 V ={ v 1 , v 2 ,…, v n },若满足以下条件:
则称二元关系
H
=(
V
,
E
)为
超图
,集合
V
中的元素
v
1
,
v
2
,…,
v
n
表示超图的节点,|
V
|表示节点的个数;
E
={
E
1
,
E
2
,…,
E
e
}为超图中所有超边的集合,其中的元素
称作
超边
,|
E
|表示超边的个数。最近,Banerjee
[
104
]
基于定义的连通性矩阵介绍和分析了一般超图的几个结构特征,例如,超图的直径、连通性和顶点色数与这些矩阵的谱之间的关系。
超图的表示方法与普通图相同,以图形的形式进行表示,特别地,当超图中的超边仅包含2个节点时,超图就退化成了普通的社交网络图。下图为超图的实例,包含6个节点和2条超边。
图1.21 超图
图1.21展示了超图 H =( V , E ),其中节点 V ={ v 1 , v 2 , v 3 , v 4 , v 5 , v 6 },超边集合 E ={ E 1 , E 2 },其中 E 1 ={ v 1 , v 2 , v 4 }, E 2 ={ v 2 , v 3 , v 4 , v 5 , v 6 }。
近年来,利用超图或者超网络研究在线社交网络以及社会网络中的实际问题是一个新的有较好发展前景的研究方向,其中已有的研究工作包括以下三个方面。
首先,在信息传播与影响力扩散方面,Suo等 [ 105 ] 基于社交网络中的不同关键属性与信息传播方式构建了一种超网络,由此对社交网络中的用户进行了等级评价,并为用户提供了个性化的推荐服务。Du [ 106 ] 提出了基于概率超图的一种新的信息传播模型,寻找了概率最大的传播路径,度量了源节点的领导能力并能够确定出意见领袖。Gangal等 [ 107 ] 用超图中的节点代表行动者,超边代表组织群体,通过分析影响力扩散过程提出了一种新的影响力最大化方法。
其次,在群组结构检测方面,Tao等 [ 108 ] 针对社交网络使用超图构建了所有的局部连接结构,并采用hMETIS方法进行了超图分割,而提出了一种基于超图的重叠社区提取方法。Yang等 [ 109 ] 利用信息熵描述度分布并提出了一个名为EQHyperpart的社区检测工具,对无标度网络和一些经典的现实数据进行了评估测试。Zhang和Liu [ 110 ] 提出了一个进化的超图模型,并通过Folksonomy的底层结构研究了社交网络中的用户行为。
最后,在话题关系与用户关系方面,肖玉芝和赵海兴 [ 111 ] 利用超图理论建立了在线社交网络中用户行为的四层超网络模型,并通过兴趣话题的趋同性来使用户之间可以建立朋友关系。Fang等 [ 112 ] 在社交媒体网络中利用超图理论提出了一种有效的计算方法(TSIM),同时也推断了超图中每个节点在不同话题中的影响力。You等 [ 113 ] 通过对腾讯QQ数据集的分析,得出群体及其成员之间三种不同类型的网络:群体超图、群体网络和用户网络,揭示了微观层面的社会关系互动。