购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 社交网络分析的理论与相关工作

研究社交网络需要以图论为基础,图研究的是数据元素之间的多对多关系。在图中,任意两个元素之间可能存在关系,即节点之间的关系可以是任意的,图中任意元素之间都可能相关。图的应用极为广泛,已渗入社交网络、生物网络等,具体内容我们将在下一节继续展开。

进入21世纪,对在线社交网络的研究热度逐步攀升,根据中国知网的研究数据分析(见图1.5),关于社交网络的研究论文数量迅速上升。在研究内容方面(见图1.6),研究主题主要集中在信息传播、情感分析、社区发现等方向 [ 2 ] 。目前积极展示在线网络社交方向的会议有知识发现与数据挖掘国际会议(SIGKDD)、信息和知识管理国际会议(CIKM)以及数据挖掘顶尖学术会议(ICDM)等。

图1.5 近年来社交网络分析方向的论文发表数量(中国知网)

图1.6 近年来社交网络分析的研究内容方向(中国知网)

对于信息传播方向的研究,大多数构建单信息传播模型或多信息传播模型来表述信息在网络中的传递,且通过模型进行预测信息未来的传播路径和趋势。对于信息溯源方向的研究,一般采用基于节点属性的方法或基于传播模型的推理法来找出信息传播的源头,例如,通过信息溯源技术来识别不良信息的源头。对于流行度分析的方向,更多采用基于用户行为的方法或基于时间序列的方法来预测消息传播的未来流行程度和趋势。

本书重点关注网络空间治理领域的研究。许多学者关注虚假信息,研究网络谣言的传播规律,给出许多治理策略,对笔者有许多启示。首先,已有研究中信息传播模型的构建具有一定的局限性。虚假信息的传播过程应着重考虑在线社交媒体信息传播中的“回音壁效应” [ 8 ] 、“过滤气泡” [ 9 ] 、从众性、同质化网络、扭曲传播等特征,现有信息传播模型难以确切刻画虚假信息传播过程。其次,大规模社交网络上信息传播影响力的计算仍然是优化过程中的瓶颈。已有研究证明影响力函数的计算是#P难的 [ 10 ] ,需要通过抽样方法对目标进行近似计算,通常采用蒙特卡罗方法,然而对于规模较大的社交网络,近似计算目标函数会消耗大量的空间和时间。另外一种新的RIS抽样算法 [ 11 ] 可以在较大程度上减少计算量,然而在本书群组效应传播模型下,由于构造反向可达集比较困难,导致该方法不能适用,需要进行改进以适应新的模型。最后,求解非次模函数优化的工具和方法依旧不足。虚假信息干预策略优化中的许多关键问题均可以通过构造集函数的方法进行优化建模,其中存在大量非次模函数的优化模型,目前可以借鉴的方法有两类:一类是难以分析理论结果的启发式算法;另一类是有一定理论分析的方法,如最新的三明治近似框架、DS分解方法等。亟待研究新的理论与方法,推进非次模函数优化研究。

可见,开展虚假信息传播模型构建、传播影响力计算、非次模函数优化方法的研究十分必要。本书计划基于伊辛模型构建虚假信息传播模型,采用RIS抽样方法与分布式抽样方法估计传播影响力,探索迭代三明治方法、拟牛顿法以及Lova'sz扩展方法的非次模函数优化方法,相信从理论上能够有新的发现和突破,同时也能为社交媒体中虚假信息治理提供一些政策建议。

现阶段关于社交网络分析的相关研究工作很丰富,这些工作不仅深入探讨了社交网络的核心概念和特点,还广泛应用于各个领域,以解决实际问题。下面将分别从当今社交网络分析研究方向(例如信息传播、情感分析、社区发现、舆情传播和推荐系统等方面)和社交网络分析研究方法(例如次模函数优化、非次模函数优化、深度学习模型、博弈论方法和智能优化算法等方面)进行介绍。

1.2.1 社交网络分析研究方向

信息传播

社交网络分析(SNA)的研究呈现出多角度、多层次的特点。1967年Stanley Milgram在其发表的 The Small World Problem (小世界问题)中提出了六度分隔理论。在这篇文章中,他通过连锁信实验的结果,提出了著名的六度分隔理论,即任何两个互不相识的美国人之间,平均只需要通过六个人就能建立起联系。这一理论揭示了人际网络中人们关系的紧密性,并对后来的社交网络研究产生了深远影响。

关于信息传播的研究主要分为流行度分析、信息传播建模和信息溯源三个方面。针对流行度分析,Szabo和Huberman等 [ 12 ] 提出了SH模型,通过回归分析预测信息的流行度。他们为流行度分析建立理论基础,利用数学模型和数据分析方法,探索信息流行度的形成和演化机制。胡长军等的《在线社交网络信息传播研究综述》 [ 1 ] 系统地总结了流行度预测和流行度演化分析的方法,包括基于回归分析、用户行为和时间序列的方法。

较常用的信息传播模型主要有独立级联模型(in-dependent cascade model,IC)和线性阈值模型(linear threshold model,LT)以及传染病模型中的SI模型、SIS模型、SIR模型、SIRS模型、SEIR模型等。Myers和Leskovec [ 13 ] 研究了多条信息在社交网络中的竞争与合作机制。他们基于博弈论和传染病模型,分析复杂信息交互对传播效果的影响,建立了更加精细的传播模型。2001年,Domingos和Richardson提出了基于马尔可夫随机场(Markov random field)的社交网络影响力模型,这一模型主要用于分析社交网络中用户行为之间的相互依赖关系,特别是在信息传播和影响力扩散过程中。方滨兴等的《在线社交网络分析》中介绍了单信息传播建模方法和多信息传播建模方法,特别是基于复杂网络理论和动态变化特性的模型,通过改进传统传播模型,考虑时间延迟、异步传播等因素,更准确地描述信息传播过程。

信息溯源方面的研究起步较早,理论基础较为扎实,研究方法多样化、精细化。很多学者不仅关注溯源算法的准确性和效率,还注重溯源技术在公共健康、信息传播控制等领域的应用。例如,Lokhov等 [ 14 ] 提出了一种基于动力学消息传递算法的溯源方法,利用网络中节点间的连接关系和观测到的感染状态,反向推算出最可能的感染源。该方法在复杂网络环境下表现出较高的准确性和效率。他们在研究中应用了三种算法——动态信息传递算法、SIR模型假设法以及统计推理法。动态信息传递算法通过在网络中迭代传递信息来更新每个节点作为潜在源头的概率。在每次迭代中,每个节点根据其邻居节点的状态和连接关系,计算并更新其被感染的概率,从而逐步逼近真实的感染源。SIR模型假设法通过假设信息传播遵循SIR(易感者-感染者-恢复者)模型,即节点处于易感(S)、感染(I)或恢复(R)三种状态之一,并通过一定的概率在这些状态间转换。最后结合动力学信息传递和统计推理的方法,对网络中每个节点作为源头的可能性进行评估和排序,最终确定最可能的感染源。Prakash等的研究探讨了在不完全时间戳条件下的信息溯源问题,提出了基于部分观测数据的溯源算法。Zang等 [ 15 ] 研究了在社交网络中发现多个信息传播源节点的问题,提出了基于反向传播与节点分区的多源溯源方法。国内学者在信息溯源领域主要关注复杂社交网络结构下的高效、准确溯源方法。研究方法包括基于节点属性的方法、基于传播模型的推理法以及结合大数据和机器学习的创新方法。胡长军等 [ 1 ] 综述了信息溯源的基本方法、挑战和最新进展,介绍了基于中心度测量、统计推理等的多种溯源技术。方滨兴等探讨了社交网络分析中的信息溯源问题,特别是在不完全观测条件下的溯源方法。

情感分析

社交网络分析最早由英国著名人类学家Radcliffe-Brown(拉德克利夫-布朗)提出,他主张对社会结构进行分析,并呼吁学者开展社会网络的系统研究与分析。而情感分析(sentiment analysis)的引入,是作为一种对自然语言处理(NLP)的技术发展起来的,旨在对人类言论等行为所表达的情感导向进行分析。社交网络分析的情感分析,严格意义上来说属于观点挖掘的范畴,根据用户在社交网络中的一系列行为(如评论、点赞等),以心理学、行为学等理论为基础,采用自然语言分析处理技术等方法,分析社交网络用户对实体(如产品、事件、观点、个人等)表达的观点与情感倾向等 [ 16 ]

随着互联网技术的快速发展,在线社交网络如Facebook、Twitter、微博等迅速崛起,成为人们日常生活中不可或缺的一部分,这些平台为用户提供了分享生活、表达观点和情感的空间,产生了大量的用户生成内容(UGC),包括文本、图片和视频等。社交网络数据具有规模庞大、动态性和多样性等特点,为情感分析提供了丰富的数据源,同时这些数据包含了用户的真实情感表达,对于理解公众情感、预测社会事件等也具有重要意义。这使得企业、政府和学术界对理解公众情感的需求日益增长,情感分析成为自然语言处理(NLP)领域的一个研究热点。而情感分析旨在从文本数据中提取情感信息,如情感倾向、情感强度等,以支持决策制定、市场研究和舆情监控等应用。这些具有特殊性的情感处理需求与情感分析的特定效果的结合,使情感分析应用格外重要。

社交网络分析和情感分析的结合是计算机科学、社会学和心理学等多学科交叉融合的结果,不同领域的学者从各自学科的角度对这一问题进行研究,也推动了情感分析在社交网络分析方面的应用和发展。

社区发现

社区发现(community detection)是指在社交网络中识别和提取具有高度内部连接的节点子集或群体的过程。社区通常代表社交网络中结构紧密、联系密切的子群体,如朋友群、兴趣小组或专业网络。发现这些社区对于理解网络的结构和功能具有重要意义。社交网络分析中关于社区发现方面的研究已经取得了丰硕的成果,并发表了大量相关文献。这些研究不仅提出了多种社区发现算法,还探索了社区发现在社会网络分析、信息传播和推荐系统等多个领域的应用。在社区发现算法的相关成果中,较为常见的有基于模块度的优化算法、谱聚类算法、标签传播算法以及动态社区发现算法等。

在基于模块度的优化算法中,较为常见的有Newman快速贪心算法,Girvan等 [ 17 ] 首次系统地研究了复杂网络中的社区结构,并提出了该算法。他们首先定义了网络中的社区结构(即网络可以被划分为若干个内部连接紧密而外部连接稀疏的子图)和边介数(即网络中所有最短路径中经过某条边的比例)。基于边介数设计了一种迭代算法来发现网络中的社区结构。算法的基本步骤是不断移除网络中边介数最高的边,每次移除后重新计算剩余网络的边介数,直到网络被完全划分成孤立的节点或达到某个预设的停止条件。通过对多个真实网络的分析,展示了Girvan-Newman算法的有效性。

谱聚类算法 (spectral clustering)是一种基于图论的聚类方法,它通过数据的相似度矩阵(或称为亲和度矩阵)的特征值和特征向量来进行聚类。在社交网络分析的研究中通过构建社交网络中的用户关系图,谱聚类算法可以发现社交网络中的社区结构。Luxburg等 [ 18 ] 详细介绍了谱聚类的理论基础、算法步骤及其在不同场景下的应用。他们从图割(graph cut)的视角出发,解释了谱聚类算法的本质和优点,探讨了谱聚类算法的一致性问题,即随着样本量的增加,谱聚类算法是否能够稳定地收敛到真实的聚类结构。通过理论证明,分析了谱聚类算法在特定条件下的一致性问题。这些条件包括数据的生成模型、相似度矩阵的选择,以及聚类数量的确定等。同时探讨了谱聚类算法在不同条件下的收敛速度,以及收敛到真实聚类的充分必要条件。这些分析为谱聚类算法的应用提供了重要的理论依据,最终从理论上证明了谱聚类算法在某些条件下的收敛性和一致性,为谱聚类算法的应用提供了坚实的理论基础。Ng等 [ 19 ] 提出了一个具体的谱聚类算法,并分析了其性能。该算法基于数据的相似度矩阵的特征向量,通过 K -means等简单聚类方法完成最终的聚类过程。

标签传播算法 (label propagation algorithm,LPA)是一种基于图的半监督学习方法,主要用于数据聚类或任务分类。Zhu等 [ 20 ] 首次提出了标签传播算法,该算法通过构建数据项之间的相似度图,将已标记节点的标签信息通过图结构传播到未标记节点。算法的基本思想是基于图的局部一致性假设,即相邻节点倾向于具有相同的标签,并将其应用于半监督学习问题中。2007年,Wang等 [ 21 ] 提出了一种新的标签传播策略,即利用节点的线性邻域关系来指导标签的传播。他们引入了线性邻域的概念,即每个节点不仅与其直接邻居相连,还与其邻居的邻居(二阶邻居)等以线性方式相关。这种线性邻域关系通过考虑更广泛的上下文信息来改进标签的传播。此外,为了提高算法的效率,他们还提出了一种基于稀疏矩阵的优化方法,利用稀疏矩阵运算来加速标签的更新过程。2010年,Liu等 [ 22 ] 研究了在大规模图上构建有效标签传播算法的方法,通过构造稀疏图结构来降低计算复杂度,同时保持较高的分类性能。

动态社区发现算法主要关注如何在动态网络中有效地识别和跟踪社区的演化。随着社交网络的兴起和在线交互数据的爆炸性增长,动态社区发现成为了复杂网络分析中的一个重要研究领域。Greene等 [ 23 ] 对动态社交网络中的社区演化进行了研究,通过关注动态社交网络中社区随时间的变化过程,指出动态社交网络中的社区结构是随时间不断变化的。他们介绍了多种社区发现算法,例如模块度优化算法,同时提出了一种适用于动态网络的社区发现算法,该算法能够处理网络拓扑结构的快速变化,并跟踪社区的演化过程。此外还定义了量化社区演化过程的指标,如社区存活时间、社区大小变化率等,用于评估社区演化的稳定性和动态性。通过这些指标,可以对不同社区的演化模式进行比较和分析。

舆情传播

舆情传播是指在社交网络和媒体平台上,公众意见、情感和态度的形成和扩散过程。随着互联网和社交媒体的普及,舆情传播的速度和影响力显著增强,成为社会舆论和公共政策的重要组成部分。舆情传播已成为社交网络分析的一个热门研究领域,吸引了众多学者的关注。国内在社交网络分析及其在舆情传播中的应用方面也取得了显著进展。国内学者通过改进经典的信息传播模型(如独立级联模型、线性阈值模型),提出了多种适用于社交网络的信息传播模型,以更好地描述舆情传播的过程。在舆情监测与预警方面,基于社交网络大数据,研究舆情事件的监测、预警机制,以及舆情演化的趋势预测。例如,国内多个研究团队开发了舆情监测系统 [ 24 25 ] ,通过实时监测社交网络中的关键词、情感倾向等指标,为政府和企业提供舆情预警服务。

国外在社交网络分析与舆情传播方面的研究起步较早,研究成果丰富多样。国外的研究者不仅关注舆情传播的基本机制,还深入探讨了舆情传播与社会现象、公众情绪、政治态度等之间的关系。同时,国外的研究还注重跨学科合作,将计算机科学、社会学、心理学等多个领域的知识和方法结合起来,形成了一套较为完善的研究体系。国外学者从复杂网络、传染病模型、博弈论等多个角度提出的信息传播理论,为解释舆情在社交网络中的传播机制提供了重要的理论框架。其中,Myers和Leskovec [ 13 ] 提出的竞争传播模型考虑了信息间的竞争与合作关系,能够预测多种信息在社交网络中共同传播的情况。他们基于进化博弈论的思想构建了一个信息传播模型,用于模拟多种信息在社交网络中的传播过程。该模型考虑了信息间的竞争与合作机制,通过量化信息间的相互作用来预测不同信息的传播情况。试验后发现,这种基于进化博弈论的信息传播模型能够较好地预测多种信息在社交网络中的共同传播情况,且与传统的独立级联模型相比,该模型在预测精确度上有显著提高,能够更好地捕捉信息间的相互作用。这种模型为舆情传播研究提供了一种新的视角和方法,有助于更深入地理解舆情在社交网络中的传播规律和机制。同时,这种理论框架也为舆情监测、预警和管理提供了有效的工具和方法,对于监测舆情传播效果、维护社会稳定具有重要意义。Vosoughi等 [ 26 ] 收集大量来自不同在线社交网络(如Facebook、Twitter等)的真实新闻和虚假新闻传播数据,通过分析和对比,发现虚假新闻在某些情况下传播得更快、更广。他们探讨了真实新闻和虚假新闻在社交网络中的传播差异,对理解舆情传播中的信息真实性问题具有重要意义。

国内研究不仅关注舆情传播的宏观过程,还深入微观层面,分析个体行为、社交关系、信息传播路径等因素对舆情传播的影响。研究成果广泛应用于政府决策、企业公关、社会舆论监控等领域,为相关部门提供了重要的参考依据。

推荐系统

推荐系统 (recommend system)是一种通过分析用户行为和偏好,为用户提供个性化产品、服务或信息建议的技术。推荐系统广泛应用于电商平台、社交媒体、流媒体服务、新闻网站等,旨在提高用户体验和满意度,同时增加平台的用户黏性和商业收益。社交网络分析在系统推荐方面也有许多研究,其中一些研究较为深入,这里我们将在三个研究方向对这些研究进行探究。

第一个方向是基于图结构的推荐算法,它将社交网络视为图结构,利用图算法来挖掘用户之间的潜在联系,进而改进推荐效果。例如Baltrunas [ 27 ] 强调在实际应用中,用户的兴趣和偏好是随时间变化的。因此,传统的静态推荐方法往往无法准确捕捉用户的动态需求,他提出了构建时间感知推荐系统的必要性,旨在通过考虑时间因素来提高推荐的准确性和个性化程度。他还探讨了如何利用隐式反馈数据来构建推荐模型,特别是如何从这些非直接反映用户喜好的行为中提取有用的信息,与显式反馈(如用户评分)相比,隐式反馈(如浏览历史、点击行为等)更为丰富且易于获取。他介绍了一种基于时间感知的协同过滤推荐算法,该算法在建模过程中考虑了时间因素对用户兴趣和偏好变化的影响,利用时间戳对用户的隐式反馈数据进行排序和分组,通过分析不同时间段用户行为的差异来捕捉用户的动态兴趣变化。最后通过实验表明该算法在准确性和个性化程度方面均有显著提升。

第二个研究方向是社交影响与推荐,通过研究用户在社交网络中的相互影响行为,探究如何利用这种影响来增强推荐的可信度和接受度。例如Ozsoy等 [ 28 ] 探讨了基于信任的推荐系统,强调了在社会化网络中,用户之间的信任关系对于推荐效果有着显著影响。用户的信任网络提供了关于用户偏好和可靠信息源的重要线索。他们还分析了传统推荐系统(如基于内容的推荐、协同过滤等)的局限性,特别是它们在处理稀疏性和冷启动问题上的不足,以及忽视用户间信任关系的缺点。通过介绍不同类型的信任度量方法,包括显式信任和隐式信任,讨论了如何构建信任网络,并基于这些信任网络来改进推荐算法。例如,通过整合信任网络信息和用户评分数据来生成更加准确的推荐。最终通过实验和案例分析证明了考虑用户间信任关系对于提高推荐系统性能的重要性。基于信任的推荐系统能够生成更加符合用户实际需求和偏好的推荐结果,从而提高用户的满意度和忠诚度。

最后一个研究方向是深度学习在社交网络推荐中的应用,其利用深度学习模型(如卷积神经网络、循环神经网络、图神经网络等)来处理社交网络中的复杂数据,实现更加精准的推荐。

1.2.2 社交网络分析研究方法

次模函数优化

在社交网络分析中, 次模函数 (submodular function)被广泛应用,特别是在信息扩散、影响力最大化、社区检测等领域。次模函数具有“递减的边际收益”,即增加一个元素到集合中,其带来的额外收益(或价值)随着集合规模的增大而减少。这种属性使得次模函数非常适合于优化问题,尤其是在资源有限的情况下。次模函数在社交网络分析的研究中有着多方面的应用,例如在影响力最大化、社区检测以及资源分配等方面。

首先介绍的是影响力最大化,在社交网络中,影响力最大化是一个经典问题,旨在找到一组种子用户,通过它们的信息传播,能够最大化影响网络中的其他用户。由于影响力传播函数通常具有次模性,因此可以利用次模函数的优化算法来求解这一问题。Chen等 [ 29 ] 提出了几种基于次模函数优化的高效影响力最大化算法。通过改进贪心算法的执行效率,并利用社区结构来减少搜索空间,显著提高了算法的运行速度。Gomez-Rodriguez等 [ 30 ] 研究了连续时间扩散网络中的影响力最大化问题。他们提出了一个基于生存分析的框架来建模信息的连续时间扩散过程,并证明了该过程中的影响力函数是次模的。基于这一发现,他们提出了有效的贪心算法来求解该问题。

其次为次模函数在社区检测问题中的应用,在社区检测问题中,次模函数虽然不直接作为主要的建模工具,但其优化特性可以被间接用来指导社区发现过程或评估社区质量。次模函数具有“递减的边际收益”,这种属性在社区检测中可以用于优化社区的选取或评估社区划分的优劣。例如在社区质量评估中可以通过定义一个次模函数来评估社区的质量。这个函数可以衡量社区内部的紧密程度(如内部连接密度)和社区之间的分离程度(如外部连接稀疏性)。由于次模函数的优化能够找到使函数值最大化的集合,因此可以通过优化这个次模函数来发现高质量的社区结构。在Newman [ 31 ] 的研究中,虽然没有直接使用次模函数,但他介绍了模块度这一衡量社区划分质量的指标,该指标可以被视为一种特殊形式的次模函数。

在基于优化的社区检测算法中,一些社区检测算法可以间接地利用次模函数优化来指导社区的划分。例如,一些算法首先将网络划分为多个候选社区,然后通过优化一个次模函数(如模块度优化)来调整这些候选社区,以获得最终的社区划分结果。Blondel等 [ 32 ] 针对大型网络中的社区发现问题,提出了一种高效的算法,称为Louvain方法。社区发现是网络科学中的一个重要任务,旨在将网络中的节点划分为若干个子集(社区),使得同一社区内的节点连接紧密,而不同社区间的节点连接稀疏。Louvain方法特别适用于处理大规模网络,能够在合理的时间内给出高质量的社区划分结果。Louvain方法是一种基于模块度优化的启发式算法,其基本思想是通过迭代地优化网络的局部结构来提高全局的模块度。算法分为两个阶段,重复进行直到模块度不再显著增加。第一个阶段是局部搜索阶段:在当前的网络划分下,算法尝试将每个节点移动到其邻居所在的社区,以最大化模块度的局部增加。如果一个节点移动到另一个社区能够导致模块度的增加,则该移动被执行。这个过程会重复进行,直到没有任何移动能进一步增加模块度。第二个阶段是凝聚阶段:在第一阶段完成后,算法构建一个新的网络,其中每个社区被视为一个新的节点,社区间的连接权重是所有连接两个社区内节点的边权重之和。然后,算法在新构建的网络上重复第一阶段的过程。这个过程不断重复,直到整个网络的模块度不再增加。

最后是次模函数在资源分配中的应用,在资源有限的情况下,如何在社交网络中合理分配资源以达到最优效果是一个重要的问题。例如,在广告投放、病毒营销等场景中,可以利用次模函数来优化资源的分配,使得资源覆盖的用户群体达到最大化收益。

非次模函数优化

在社交网络分析中,虽然次模函数因其特有的边际收益递减性质而被广泛应用于资源分配、影响力最大化等问题,但非次模函数同样有其应用场景和研究价值。非次模函数在处理某些不具有边际收益递减特性的复杂问题时可能更为适用。非次模函数在社交网络分析中有多方面应用,下面将从它在社交网络分析的复杂传播模型、竞争与合作关系以及动态网络分析三个方面的应用进行介绍。

首先是非次模函数在复杂传播模型中的应用,在社交网络中,信息的传播过程可能受到多种复杂因素的影响,如用户的兴趣变化、网络结构的动态演变等。这些因素可能导致信息传播函数不再满足次模性质。因此,在非次模框架下研究信息传播机制可能更贴合实际。Beutel等 [ 33 ] 研究了在复杂网络中多个病毒(或信息)同时传播时的共存问题。他们扩展了传统的SIS模型,提出了一个名为SI1I2S的新模型,用于描述网络中两个病毒之间的相互作用。在这个模型中,节点可以处于四种状态之一:同时感染两种病毒(I12),只感染病毒1(I1),只感染病毒2(I2),或易感状态(S)。节点通过一定的概率在这四种状态之间转换。他们通过理论分析和实验验证,研究了两个病毒在复杂网络中的传播行为,特别是它们是否能共存以及共存的条件。实验采用了Hulu和Blockbuster两个视频服务网站以及Firefox和Google Chrome两种浏览器的使用数据作为案例,展示了新模型在拟合实际数据方面的有效性。他们系统地研究了复杂网络中两个病毒同时传播时的共存问题,揭示了病毒间相互作用的复杂性及其对传播动力学的影响。这为理解复杂网络中多病毒或多信息的传播提供了新的视角和工具,为后续的研究奠定了理论基础。

非次模函数在竞争与合作关系中的应用是指在多个信息或观点同时在社交网络中传播的场景下,不同信息之间的竞争与合作关系可能导致整体传播效果不再遵循简单的边际收益递减规律。此时,非次模函数更能准确描述这种复杂的相互作用关系。

2012年,Myers等 [ 13 ] 研究了在社交网络中多个信息同时传播时的竞争与合作关系。他们基于博弈论的思想,提出了一个统计模型来分析这些信息之间的相互作用及其对传播效果的影响。他们将社交网络中的信息传播类比为生物进化过程中的博弈,信息被视为不同的生物体,信息的特征或类别类比为生物体的遗传基因,信息的传播过程则类比为生物繁衍的过程。通过量化信息间的竞争与合作效应,他们建立了信息相互作用和信息传播的关系模型。该模型能够预测不同信息在社交网络中的传播情况,包括哪些信息会获得更大的传播范围和影响力,以及这些信息之间的相互作用如何影响彼此的传播效果。研究发现,在社交网络中,不同信息之间既存在竞争关系也存在合作关系。竞争式传播降低了每条信息传播的概率,而合作式传播则促进了信息的传播。他们提出的模型在Digg数据集上的实验结果表明,该模型的预测精确度较传统的独立级联模型有显著提高,具有更高的F1-Score。这表明考虑信息间的相互作用对于准确预测信息传播具有重要意义。该研究不仅提供了预测信息传播的实用工具,还深化了我们对社交网络中信息传播机制的理解。通过揭示信息间的竞争与合作关系,为信息传播研究提供了新的视角和思路。

最后是非次模函数在动态网络分析中的应用,主要体现在处理那些网络结构或属性随时间变化的场景。在动态网络分析中,社交网络的结构和属性(如用户关系、活跃度等)随时间不断变化,由于信息的传播过程受到网络结构变化、用户行为变化等多种因素的影响,这种动态性使得在固定网络结构下推导出的次模性质不再适用,而非次模函数能够更灵活地捕捉网络结构和属性的动态变化,从而提供更准确的模型和分析结果。

Myers等 [ 34 ] 研究了Twitter信息网络的爆发性动态特性。通过分析Twitter上大量数据的统计特征,揭示了信息传播在Twitter上的非平稳性、爆发性和自相似性。研究发现Twitter上的信息传播具有高度的突发性和不规则性,即信息的传播速度和规模在短时间内会突然增加,然后迅速衰减。这种爆发性动态特性对于理解信息传播机制、预测信息传播趋势以及制定相关策略具有重要意义。虽然Myers没有直接讨论非次模函数,但对信息传播动态性的分析为非次模函数在动态网络分析中的应用提供了背景。

深度学习模型

深度学习作为一种强大的机器学习技术,近年来在社交网络分析领域得到了广泛应用。利用深度学习模型对用户行为进行预测有巨大优势。首先,社交网络数据通常规模庞大且复杂多样,深度学习模型能够高效处理这些数据,并从中发现隐藏的规律和模式。其次,用户行为往往受到多种非线性因素的共同影响,深度学习模型通过多层非线性变换,能够较好地捕捉这些复杂关系,提高预测的准确性。最后,训练好的深度学习模型可以轻松地迁移到新的场景和任务中,具有较好的泛化能力。这对于快速变化的社交网络环境尤为重要。深度学习模型能够自动从大规模社交数据中提取特征,进而用于各种分析任务,如用户行为预测、信息传播建模、社区检测以及情感分析等。

深度学习模型在用户行为预测中扮演着重要角色,其强大的特征提取和模式识别能力使得从海量用户数据中挖掘出有价值的信息成为可能。2015年,Tang等 [ 35 ] 提出了一种用于大规模信息网络嵌入的LINE模型,该模型是一种用于大规模信息网络嵌入的算法,旨在学习网络中节点的低维表示,同时保留网络的原始结构信息。LINE模型能够处理各种类型的信息网络,包括无向图、有向图以及带权图。它的核心思想是通过一阶相似度和二阶相似度来保持网络结构信息。一阶相似度衡量的是节点之间的直接连接关系,即如果两个节点之间存在边,则它们的一阶相似度较高。二阶相似度则衡量的是节点的邻域结构相似性,即两个节点的邻居节点集合越相似,它们的二阶相似度就越高。LINE模型在大规模信息网络嵌入方面取得了显著的效果,能够学习到高质量的节点嵌入表示,进而支持各种社交网络分析任务,如节点分类、链接预测和可视化等。实验结果表明,LINE模型在多个数据集上均表现优异,不仅在效果上超过了传统的网络嵌入方法,还在训练效率上具有明显优势。此外,LINE模型还具有很好的可扩展性和灵活性,能够适用于不同类型和规模的信息网络。

情感分析又称为意见挖掘(Opinion Mining),是自然语言处理(NLP)和文本挖掘领域的一个重要任务,旨在自动识别和提取文本中的主观信息,特别是作者对所讨论主题的情感倾向(如正面、负面或中立)。深度学习模型因其强大的特征表示能力,近年来在情感分析领域取得了显著进展。这些模型能够自动从文本数据中学习高级特征,有效捕捉复杂的语言模式和情感表达。Kim等 [ 36 ] 提出了一种基于卷积神经网络(CNN)的句子分类方法,包括情感分析。CNN通过卷积层和池化层自动从句子中提取局部和全局特征,有效提高了情感分类的准确性。实验结果表明,CNN在多个情感分析数据集上表现优异。Liu等 [ 37 ] 探讨了循环神经网络(RNN)及其变体(如LSTM、GRU)在情感分析中的应用,并结合多任务学习来提高模型性能。RNN能够捕捉文本中的序列信息,对情感倾向的连贯性建模尤为重要。实验证明,多任务学习进一步提升了RNN在情感分析任务中的表现。

博弈论方法

博弈论在社交网络分析中的应用主要聚焦于信息传播建模和信息扩散动态过程,特别是多信息传播建模和信息相互作用的场景中。博弈论为研究不同信息间的竞争与合作关系提供了理论框架,帮助我们理解信息在社交网络中的传播机制。

在国内,随着社交网络的普及和大数据分析技术的发展,博弈论在社交网络分析中的应用逐渐受到重视。国内学者通过构建基于博弈论的信息传播模型 [ 25 ] ,分析信息在社交网络中的扩散规律,为市场营销、信息推荐、舆论监控等领域提供理论依据。然而,相较于国外,国内在这一领域的研究起步较晚,但发展迅速,已经取得了一些具有影响力的研究成果。

国外在博弈论与社交网络分析相结合的研究方面起步较早,研究成果丰富。不仅提出了多种基于博弈论的信息传播模型,还通过实证分析验证了这些模型的有效性。这些研究不仅深入探讨了信息间的竞争与合作关系,还揭示了社交网络结构对信息传播的影响。此外,国外学者还关注信息溯源、影响力最大化等前沿问题,将博弈论应用于更广泛的社交网络分析场景中。

2012年,Myers等 [ 13 ] 提出了一个基于博弈论的信息传播模型,该模型假设每个用户在有限的时间内只能参与有限数量的信息传播活动。不同信息间存在竞争关系,用户选择参与哪种信息的传播受到多种因素的影响,包括信息的内容、用户的兴趣和社交关系等。同时,某些信息间也可能存在合作关系,例如相互推广或协同传播。该模型能够量化不同信息间的竞争与合作关系。另外,他们经过实证验证了信息间的相互作用对传播效果的影响。

由于在社交网络中,信息的传播往往不是孤立的,而是多种信息相互交织、共同作用的复杂过程。因此Su等 [ 38 ] 提出了不同信息在社交网络中的传播如何相互影响以及信息的特征或类别如何决定其在网络中的传播能力等问题。为解决这个问题,他们引入进化博弈论的思想,将社交网络信息间的相互作用类比为生物的进化博弈。信息被视为不同的“生物体”,其特征或类别类比为“遗传基因”,信息的传播过程类比为“生物繁衍”。通过建立信息相互作用和信息传播的关系模型,预测不同信息在相互作用下的传播情况。在模型的构建过程中,模型假设信息的传播能力由其特征或类别决定,传播能力强的信息能够获得更大的网络影响力。信息的传播情况不仅取决于信息本身,还取决于它与其他信息的互动方式。最后通过模拟信息的传播过程,研究信息间的竞争与合作如何影响传播效果。最终经过实验,他们得出,信息的传播能力不能单纯在孤立状态下测量,必须在整体的社交网络环境中,在与其他信息的相互作用下评估,而且信息间的竞争降低了每条信息传播的概率,而合作则促进了信息的传播,他们的研究成果对于理解复杂社交网络中的信息传播机制具有重要意义。

在信息过载的社交媒体环境中,用户的注意力是有限的。Weng等 [ 39 ] 关注这种有限注意力条件下,不同“模因”(meme,即在网络上迅速传播的信息或行为)之间的竞争关系。他们建立了一个能够模拟多个模因在有限注意力环境中的竞争过程的模因传播模型。该模型还考虑了用户的注意力分配机制,即用户如何根据模因的特征和自己的兴趣选择性地关注某些模因。他们得出的结论是,有限注意力是制约模因传播的关键因素,只有那些能够吸引用户注意力的模因才能成功传播,同时模因的新颖性、趣味性等特征对其吸引用户注意力的能力具有重要影响。此外,在有限注意力条件下,模因之间存在激烈的竞争关系。一种模因的流行可能会抑制其他模因的传播。模因间的竞争结果取决于多种因素的综合作用,包括模因的特征、用户的兴趣和社交关系网络的结构等。

博弈论在社交网络分析中的应用为我们提供了深入理解信息间竞争与合作关系的有力工具。有关这一领域的研究取得了丰富的研究成果。未来,随着社交网络的不断发展和数据分析技术的提升,博弈论在社交网络分析中的应用前景将更加广阔。

智能优化算法

智能优化算法在社交网络分析中扮演着重要的角色。这些算法通常基于模拟自然界或人类行为的启发式规则,能够高效地解决一些复杂的社交网络问题,如谣言控制、影响力最大化等。例如,Parimi等 [ 40 ] 提出了一种基于遗传算法的多目标优化方法,通过在社交网络中传播反谣言来减少谣言的影响。该方法设计了一种基于用户信念的优先级模型,并将寻找最小种子用户集的问题建模为多目标优化问题,采用分解的多目标遗传算法进行求解。这种启发式算法可以有效地控制社交网络中谣言的传播。Khatri等 [ 41 ] 提出了一种基于离散化的Harris Hawks优化算法的方法,用于解决社交网络中的影响力最大化问题。该方法利用社区结构特征,并引入邻居侦察策略来增强算法的搜索能力。他们还提出了一种基于候选节点的随机群体初始化方法,加快了算法的收敛过程。这种基于启发式优化算法的方法在效率和性能方面都优于现有的启发式方法。Hu等 [ 42 ] 提出了一种混合聚类的SFLA-PSO算法,用于在社交网络中及时和实时地破除谣言。该方法首先对社交关系进行分解,提出一种新的谣言辟谣信任机制。然后,利用SFLA的局部搜索能力和PSO的快速收敛特性,设计两个子算法分别用于及时和实时地破除谣言。此外,他们还提出了信息时效性和能耗模型,以解决持续更新真相的影响问题。这种基于启发式算法的方法可以有效地阻止谣言在社交网络中的传播。

总的来说,这些启发式算法方法能够解决社交网络中的关键问题,如谣言控制、影响力最大化等,展现出较好的性能。未来的研究可以进一步探索如何将更多的启发式算法引入社交网络分析中,以提高分析的效率和准确性。 WwgsYp5UkAG6HrHkG8YHtpJ2ASOzEEuSdDocCsKT6vSiG19/j+taCepUnzhaPA7N

点击中间区域
呼出菜单
上一章
目录
下一章
×