网络空间治理前沿(第一卷)最新章节_寿步著

基于社交圈的信息分享策略

潘　理
（上海交通大学网络安全技术研究院，上海200240）

摘　要：随着大数据时代下以社交网络为代表的网络新媒体技术的发展，信息能够通过这些新媒体快速传播和扩散，这不仅增进了人们之间的自由交流，而且又促进了社会生产。然而，在享受信息广泛分享传播给生产、生活带来便利的同时，用户也不可避免地面临着更复杂多样的隐私泄露风险。本文首先基于大数据分析处理技术对网络空间中的主要隐私保护技术进行了分类讨论。在此基础上，分析了社交网络动态信息传播对信息隐私保护技术的新挑战。为了应对动态信息传播环境下的网络空间治理需求，提出了一种基于社交圈的个人信息传播控制策略机制，并在真实社交网络数据集上进行了实验验证。该策略机制能够帮助个人用户在动态社交网络环境中提供具有隐私保护意识的传播访问控制服务。

关键词：网络空间；在线社交网络；隐私保护；社交圈；信息传播

一、引言

随着智慧城市、在线社交网络等Web 3.0信息技术的发展，人们的衣食住行等信息被广泛数字化，也促成了大数据时代的到来。大数据时代下新媒体技术的发展，极大促进了用户之间的自由交流，主要包括社交媒体、移动媒体、智能手机、数字媒体、即时通信等不同的形式。信息能够通过这些新媒体快速传播和扩散，而分享的信息可看作一种多维的知识，在大数据挖掘分析下蕴含着巨大的商业价值。人们在享受信息广泛分享传播给生产、生活带来便利的同时，也不可避免地面临着更复杂的隐私泄露风险。用户在使用PC端和移动端的各种社交应用，如微博、微信、Facebook、Twitter等与他人进行交互时，会主动或被动地披露自己的姓名、职务、工作单位、兴趣爱好和生活习惯等信息。但如果个人信息被不法分子恶意传播利用，则可能会引发信息隐私泄露风险。虽然目前在社交网络中都存在一些与隐私保护相关的安全机制，如用户分组访问等，但是这些简单的保护机制往往不能满足用户对社交网络隐私保护的多样化需求，需要寻找更加合适的社交网络信息分享策略机制，提供对用户个人信息的隐私保护服务。

本文首先对网络空间安全中的信息隐私含义进行了分析，接着根据大数据生命周期的四个不同阶段简单介绍了已有的隐私保护模型和策略。随着在线社交网络的发展，社交网络中的隐私保护研究已成为网络空间治理中的热点。而当前已有面向社交网络的隐私保护模型及策略难以满足动态信息传播环境下的新安全需求，因此如何提供面向传播的隐私保护方法是网络空间治理研究的新方向。基于社交网络分布式管理机制，本文提出了一种基于社交圈的个人信息传播控制策略，能够帮助个人用户在动态社交网络环境中提供具有隐私保护意识的传播访问控制服务。

二、网络空间中的隐私保护

在维基百科中，隐私的定义是个人或团体将自己或自己的属性隐藏起来的能力，从而可以选择性地表达自己。具体什么被界定为隐私，不同的文化或个体可能有不同的理解，但主体思想是一致的，即某些数据是某人（或团体）的隐私时，通常意味着这些数据对他们而言是特殊的或敏感的。在当前的大数据环境下，隐私即用户不愿意泄露的敏感信息。因此，在网络信息的传播和分享中必须考虑如何提供安全机制，能对用户具有隐私保护意识的信息进行安全保障。《中华人民共和国网络安全法》中包含了与网络空间隐私治理相关的条例。例如，总则第十二条提及“不得侵害他人名誉、隐私、知识产权和其他合法权益等活动”，第四章网络信息安全第四十五条“依法负有网络安全监督管理职责的部门及其工作人员，必须对在履行职责中知悉的个人信息、隐私和商业秘密严格保密，不得泄露、出售或者非法向他人提供”。因此，有效地解决网络空间安全治理中的隐私保护问题是对个人、社会、国家都至关重要的。

目前已有的信息隐私保护技术主要是围绕着对数据分析处理过程中不同阶段的隐私泄露风险进行的，如图1所示。

图1　基于大数据生命周期的信息隐私保护技术分类

如图1所示，根据大数据生命周期进行划分可划分为四个时期，重点对不同隐私泄露风险进行隐私保护，包括：①数据发布期，针对数据发布者带来的数据隐私泄露风险保护；②数据存储期，针对数据存储方带来的不可信风险保护；③数据挖掘期，针对数据挖掘带来的信息泄露风险保护；④数据使用期，针对数据使用者带来的数据滥用风险保护。隐私信息所处的不同周期将面临不同类别的隐私问题以及不同程度的泄露风险，因此将采取相应的隐私保护模型及策略。

三、社交网络中的隐私保护研究

随着在线社交网络的发展，社交网络中的隐私保护研究成为网络空间治理中的热点。在线社交网络是一种信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。在现实中的朋友关系延续到了社交网络上，并且在社交网络上可能认识和发展更多用户。随着使用社交网络的人越来越多，社交网络已经逐渐成为人们日常生活中不能缺少的部分，从而导致更多的隐私泄露问题。依照大数据生命周期的划分方式，能够将社交网络中的隐私问题定义为数据安全和使用安全两个维度的问题，其中数据安全层面涉及数据发布和数据存储两个生命周期，而使用安全层面涉及数据挖掘和数据使用两个生命周期。

对于数据安全层面而言，着重考虑数据资源的三大安全要素：机密性、完整性和可用性，来构建一系列数据保护的方法模型。通过数据加密或者匿名方法等方式来模糊敏感信息，决定数据发布和数据存储两个生命周期中的隐私问题。面对数据发布阶段的隐私问题，主要采用匿名化方法进行处理。针对数据的匿名发布技术，包括k－匿名、l-diversity匿名、m-invariance匿名、基于“角色构成”的匿名等方法，可以实现对发布数据时的匿名保护。面对数据存储阶段的隐私保护问题，主要采用加密技术和访问控制技术进行处理，如基于属性的加密体制（ABE）。在ABE体制下，加密者无须知道解密者的具体身份信息，而只需要掌握解密者一系列描述的属性，然后在加密过程中用属性定义访问策略对消息进行加密，当用户基于属性特征的密钥满足这个访问策略时就可以对密文消息解密。例如Persona 和Liang 这两种基于ABE的方法，近年来被广泛地应用在OSN的隐私保护策略中。

对于使用安全层面而言，用户更关心的是使用社交网络服务时的分享体验及其隐私安全。近年采用访问控制模型来定义用户及资源间关系，制定相应访问控制策略来限制用户行为，有效地解决了许多应用场景中用户分享隐私保护问题。国内外研究已经提出了许多面向社交网络的访问控制模型，表1对这常见的四大类模型进行了总结和对比。其中，基于属性的访问控制模型能够详细地定义客体（即资源）的各种属性，以及描述客体与主体之间的属性关联，解决了社交网络中客体复杂度太高的问题。基于关系的访问控制模型能够详细刻画主体之间的关系类型、联系程度等，解决了在某些特殊的社交网络应用场景下主体之间存在诸多复杂的社交关系的问题。基于信任的访问控制模型解决了在P2P社交网络环境中难以区分对等实体之间社交关系的问题。基于语义的访问控制模型采用RDF等技术来分析用户及资源之间的复杂语义联系，有效地处理无论是主体用户还是客体资源中大量存在的语义信息。

表1　常见社交网络访问控制模型对比

四、面向传播控制的隐私保护方法

社交网络动态信息传播特征使得大多数已有的社交网络隐私保护技术无法有效控制信息传播效果，这给网络空间治理带来了巨大挑战。因此，有部分研究者从动态信息传播控制的角度来研究适用的隐私保护方法。Ranjbar 等人提出了myCommunity的模型。该模型通过划分用户可信好友集的最大子集合来控制信息传播，只有被划分在该子集合内的好友才能访问中心用户的信息，从而尽可能降低信息被恶意用户获取的概率。Carminati 等人也提出了类似的想法，通过考虑多路径的信息传播，来度量用户的隐私信息泄漏的风险。因此，从用户信息分享角度出发，通过分析用户朋友圈的信息传播态势，制定相应的访问控制策略来调控用户朋友圈对个人隐私数据的访问权限，将能够实现个性化的隐私保护策略机制。

“朋友圈”一词最早出现在微信的应用中，但是这一概念很早就在在线社交网络中普及了。它是指用户的所有好友所形成的集合。在本文中，“朋友圈”是指在一个给定标准下，用户的好友列表中具有相似属性好友所形成的社交圈（social circle）。因此，针对不同的标准，划分好友列表的方式大不相同。该类方法的总体思路是首先对用户的社交圈进行聚类划分（考虑传播因素），并将聚类结果定义为传播角色，然后选中适当的动态信息传播模型对这些角色的传播能力进行量化，最后根据用户的个人隐私保护需求，制定弹性的访问控制策略以实现管控。这三个关键环节的技术原理如下所述。

（一）朋友圈划分（角色挖掘）

朋友圈划分的角色应具有一定的代表性，这些角色不仅具备相似的属性特征和拓扑关系，还具有相似的信息传播能力或倾向。因此角色挖掘算法需要考虑社交网络节点的属性特征、拓扑结构以及传播特性。目前大多数角色挖掘算法很难实现上述要求，因此，本文提出了一种新型的角色挖掘算法RMPM，后续具体描述。

（二）角色传播能力量化

为了度量角色的传播能力，首先需要根据社交网络的实际环境，选定一种面向社交网络的信息传播模型。为了适应普遍的社交网络应用环境，一般可以采用独立级联模型。然后，依次将每个角色所代表的好友节点作为种子集，计算在这些激活种子集后信息传播的范围，并将每个角色role _i 的传播范围 Inf _i 进行归一化处理，作为对应角色的传播能力值。假设当Ego Network中所有节点被同时激活时，计算得到的传播范围为 Inf _upper ，那么 role _i 对应的传播能力 RPC _i 为：

（三）制定基于角色的访问控制策略

从动态传播的角度衡量用户的隐私意识，将其转化为用户对共享信息的传播范围期望度 δ ， δ ∈[0，1]。 δ 越小，表明用户希望自己发布的信息在社交网络中传播范围越小。那么将 δ 作为信息传播范围的归一化约束值，在满足信息传播范围不超过用户隐私意识 δ 限定情况下，选择最优的角色赋予相应的访问权限，便能实现用户信息共享隐私意识需求。

基于上述基本原理，我们提出了一种基于朋友圈的社交网络信息分享策略机制。假定社交网络中每位用户对自己的个人数据的分享传播具有一定程度的隐私保护意识，该机制将从动态传播角度衡量用户的该种隐私保护意识需求，并基于RBAC访问控制模型，实现所提出的社交网络用户信息传播管理的框架RBAC-PIPM 。RBAC-PIPM能够自动化地生成能够适当约束传播的访问控制策略，帮助用户在隐私意识的约束下可控地分享信息传播范围。RBAC-PIPM的部署实现流程如图2所示。

图2　基于角色的信息传播管理访问控制框架

该模型框架具备两个核心要点：①挖掘得到合适的角色集，并权衡其粒度以及适用性。②设计合理的授权机制以生成基于约束信息传播的访问控制策略。它基于用户好友的属性、结构、传播特性等信息，采用RMPM算法进行角色挖掘得到合适的角色集，并在指定的传播模型下度量这些角色的传播能力作为控制要素，进而在用户隐私意识需求的约束下，制定最优的访问控制策略。因此可以将RBAC-PIPM的部署实现流程分为以下四个阶段：

（1）根据选定的中心用户 v ，将其Ego Network G ^v ＝( V ^v ， E ^v )，以及所有好友节点（ u ∈ V ^v ）的相关数据（ Edge _u ， Attr _u ， Ego _u ）作为已知条件输入到框架中。

（2）采用本文提出的RMWP角色挖掘算法，对Ego Network G ^v 进行划分，得到相应的角色集Social Role Set。

（3）选定适合当前社交网络环境的信息传播模型，计算所有角色的传播能力Role Propagation Capability。

（4）采用访问控制策略授权管理方法MAPM，将角色的传播能力作为控制因素，基于权限最大化原则对相应角色实现自动化的权限分配，得到基于RBAC的访问控制策略。

其中，传播角色和权限最大化原则两个关键定义如下。

传播角色：传播角色代表着这样的一组用户，他们不仅具备相似的属性特征和拓扑关系，还具有相似的信息传播能力或倾向。因此为了实现RBAC模型的角色挖掘以及权限分配，Ego Network G ^v 中的每一个节点 u ，需要已知以下三点信息：

（1）边连接关系集合： Edge _u ＝{ edge _uw ＝0 or 1| w ≠ u ， w ， u ∈ V ^v }；

（2）属性特征集合： Attr _u ＝{ attr _ui | i ∈[1， K ]}；

（3）邻接节点集合： Ego _u ＝{ w | w ≠ v ， w ∈ V ^u }，其中 V ^u 是节点对应的Ego Network G ^u 中的节点集合。

权限最大化原则：对于中心用户发布的信息 m ，在满足用户隐私意识需求的情况下，理应让更多合适的好友节点拥有访问信息 m 的权限。

为了实现基于朋友圈的角色挖掘，我们提出了一种新的角色挖掘算法RMPM（Role Mining for Propagation Management）。该算法考虑了节点的属性特征、拓扑结构以及传播特性，因为具备相似拓扑结构、属性特征的好友节点聚合而成的角色更能代表它们之间的共性，而节点传播特性会影响对应角色传播能力。综上所述，RMPM算法设计采取了以下3个基本假设：①两个节点相互连接时，属于同一个角色的概率越大；②两个节点的属性特征相似度越高，属于同一个角色的概率越大；③两个节点的邻接节点集的重合率越高，它们的传播特性越相似，属于同一个角色的概率越大。

在基于朋友圈的信息分享策略机制中还包含所提出的一种访问控制策略授权管理方法MAPM。该方法基于权限最大化原则，设计合适的授权机制以生成适当约束传播的访问控制策略。权限最大化原则要求在满足用户的隐私意识需求的前提下，尽可能地让用户更多合适的好友拥有访问权限。因此，本文提出了一种角色评分方案，依据角色的典型属性空间（RTAS）与中心用户的属性空间（UAS）之间的加权相似度来为每个角色 role _i 进行评分，记为 Score _i 。

因此，依据权限最大化原则和角色评分规则，可将访问控制策略的授权管理问题形式化为一个最优化目标求解问题：

针对某一类信息 m ，使得信息 m 与的实际传播范围不超过用户的隐私意识约束下，让尽可能多的具有较高评分角色被授予相应的权限。该最优化目标问题是一种组合优化问题，属于NP-Complete问题，解空间为2 ⁿ （ n 表示角色总数）。该问题不一定存在最优解，只能通过寻找近似解的方法来求解，具体解法在此不做详细介绍。

实验评估采用了SNAP提供的Facebook数据集。该数据集是用Facebook中App进行相关用户调查研究收集的，包含了用户的节点属性特征、拓扑结构以及Ego Network等。通过该数据集构建出的网络共有4 039个节点以及88 234条边，并包含了用户的Facebook“圈子”（或“朋友列表”）组成。本文在整个实验中选取了其中一个节点作为中心用户v，并得到其Ego Network（包含66个好友节点）。实验选取了朋友圈划分算法SC-Cluster、社区划分算法CESNA与本文框架中的RMPM算法进行了比较，如图3所示。

图3　实际传播范围和授权人数比例

图3中结果显示，对于用户发布的不同消息，用户共享信息的实际传播范围在相应访问控制策略约束下均没有超出阈值，证实了RBAC-PIPM的可行性。而且在几乎所有不同的用户隐私意识程度下（除 δ _m ＝0.3），RMPM对应的授权人数比例高于SC Cluster和CESNA，更加符合权限最大化原则。因此，采用SC Cluster算法的最终效果比RMWP算法差很多，表明了考虑到节点传播特性的RMWP算法更适合于RBAC-PIPM应用。与此同时，CESNA算法虽然不如RMWP稳定，但总体效果较为相近，说明了该框架具有较好的适用性，能够在实际应用部署时可以根据需求选择不同的角色挖掘算法。实验结果表明，基于朋友圈的社交网络信息分享策略机制能够基于用户隐私保护意识对社交网络共享信息的传播范围进行有效控制，并且RMPM算法在角色划分粒度和基于用户隐私意识的共享信息传播管理方面具有良好的适用性。

五、结语

随着网络信息时代的高速发展，用户在享受信息便捷传播分享的同时，也不可避免地面临着个人隐私泄露风险。社交网络中的隐私保护问题已成为网络空间治理当中的研究热点。本文首先讨论了新型网络通信技术带来的多样化隐私保护需求，以及对理论和技术的挑战，重点分析了如何在社交网络信息动态传播环境提供个人信息隐私保护机制，提出了一种基于社交圈的个人信息传播控制策略机制。该策略机制能够帮助个人用户在社交网络环境中提供具有隐私保护意识的传播访问控制服务。