网络技术的迅猛发展和网络应用向人类生活的广泛渗透,以及新兴网络模式的产生,迅速增长起来的维基百科、Blog、网络社区、E-mail、BBS、即时通信等使得资源形式更为多样,资源间关系更为复杂,资源网络拓扑动态性更强。但同时也可以看出,网络所显式表现出的资源间的关联关系,其实都是资源提供者的知识结构,以及社会人对网络资源认知状况的体现。例如,在Blog的链接中,Blog制作者倾向于把自己的Blog链接到朋友、权威站点或具有相同主题的Blog上;而且,虽然资源自身不具有思维意识及意愿,但资源背后的人具有这一切自主性,所以,网络上也会存在虚假信息资源、低质量信息资源甚至欺诈信息等。因此,在对资源组织管理时,表面上我们面对的是资源实体,实际上真正的对象是社会人。资源间的关系,表现的是社会人的知识关系及认知状态,所以,对资源组织管理机制的研究,从深层次讲,就是社会人在以计算机为媒介的网络世界中的认知、知识及行为的组织管理。对网络资源结构的发现研究可以转化为对基于计算机网络的社会网络的研究。
根据维基百科的解释,社会网络(SN,Social Networking)来自于社会学理论,是指个人之间的关系网络。社会网络的主体是人,人之间的各种联系构成了关系,这种关系既包括静态的、由某种社会结构所决定的关系,如家族血缘关系、行政等级关系、企业组织机构关系和由地域、爱好、利益等相似性所引发的聚团关系等,还包括动态的、基于上下文不同而随时变化的、由交互和活动等动作所引发的动态关联关系等。
社会网络理论中有两个非常重要的基础理论
:六度分隔理论(Six Degrees ofSeparation)和 150 法则(Rule of 150)。
六度分隔理论是由美国著名社会心理学家斯坦利·米尔格拉姆(Stanley Milgram)于 20 世纪 60 年代最先提出的。他通过连锁信实验发现,两个互不相识的人之间通过不超过六个人的传递就可以实现信件的通信。“六度分隔”说明了社会中普遍存在的“弱纽带”(或称为“远距离”)连接关系所发挥的巨大作用。例如,找工作时,许多人最后所得到的工作机会往往不是由平时联系紧密的人所提供的,而是由那些平时联系很少的人提供或间接提供的,也就是说通过弱纽带,人与人之间的距离变得非常短。六度分隔理论引发了小世界网络模型及理论研究的热潮。小世界网络反映了熟人间的短链连接关系法则,通常被认为具有较短的网络直径(对数级)和较大的聚类系数(Cluster Coefficient)。1998 年,Watts和Strogaze在《自然》杂志发表了第一篇构造小世界网络数学模型的论文,揭示了小世界现象在自然界和技术应用领域的普遍存在性,并指出小世界现象是促进万维网演化的一个基本因素。针对斯坦利·米尔格拉姆在连锁信实验中所发现的“基于局部信息的社会网络个体间协作可有效构造出两点间最短路径”的结论,康奈尔大学的乔恩·克莱因伯格从算法角度给出分析和证明,指出在能生成Watts-Strogaze小世界模型的随机网络模型中,存在且仅存在唯一分散算法能以高概率发现最短路径 [52] ,从而在数学理论上对社会网络中基于局部知识的个体间有效协作的关键属性给予了严密的分析和证明;同时开创性地提出了一种支持可路由的小世界模型,该模型在二维网格上为每个节点添加一条长链接,两个节点间构建链接的概率与两者间的距离成反比。
150 法则来源于欧洲的一个农民自发组织“赫特兄弟会”,他们有一条不成文的严格规定:每当聚居人数超过 150 人,他们就把它变成两个组,再各自发展。即他们认为“把人群控制在 150 人以下似乎是管理人群的一个最佳和最有效的方式。”150 法则在现实生活中的应用很广泛。例如,微软推出的聊天工具MSN,只能是一个MSN号对应 150 个联系人。150 成为人们普遍公认的“可以保持有效社交关系的人数的最大值”。即使你可能认识许多人,但是在某一时间段,一个人所建立的那些强链接仍然符合 150 法则。
现代科学技术和人类社会文明的高速发展促进和深化了人与人之间的交流和联系,形成了形形色色的现代社会网络。例如,电话网络,E-mail网络,影星们的合拍电影网络,论文合作网络,朋友网络,组织机构网络等。
小世界模型的提出,以及计算机网络技术的快速发展,使得许多构建于信息技术与互联网络之上的应用软件越来越人性化和社会化。也就是说,现代网络软件在功能上显式或隐式地反映和促进着真实的社会关系的发展和交往活动的形成,使得人的活动与软件的功能融为一体。社会网络的含义已经突破了传统社会学中所定义的以人为主体的关系网络,许多主体非人类的技术网络、应用网络也成为社会网络的一部分。例如,万维网、博客网络、无线手持设备移动网、汽车车载平台网络等,这些网络中主体的行为在一定程度上体现着人的意志,所以,这些现代新型的设备网络、技术网络等构成了社会网络的一部分。它们扩大了社会网络的表现形式,对社会网络的理论模型研究和应用研究提出了新的需求和挑战,构成了现代社会网络的新的研究领域,在近几年受到社会学、经济学、计算机、数学、物理等多领域研究者的瞩目。
社会是一个由多种多样的关系构成的巨大网络。对社会网络进行研究和分析,其意义在于,它可以对各种关系进行精确的量化分析,从而为某种中层理论的构建和实证命题的检验提供量化的工具。早期的社会网络分析仅限于微网研究,即对小群体内部结构和人际关系的研究,目前已发展成大规模的宏网研究,从而使社会网络分析成为结构性和概念性较强的理论研究的有力工具,甚至可以建立“宏观和微观”之间的桥梁,即使微观研究和宏观研究有机地结合起来。
社会网络分析的基本方法有图示法和矩阵法等。图示法是通过网络图形直观地展现社会网络的概貌,并可利用图形进行简单的关系分析。矩阵法首先将社会网络用(0,1)矩阵表示出来,然后利用矩阵解析技术来分析复杂的社会网络中关系的分布与特征,统计分析中的相关分析和因素分析等,也被引入社会网络的分析。
人类生存、应用环境中存在的大量复杂系统大都可以用网络加以描述。
适用于描述真实系统的网络拓扑结构研究经历了三个阶段。在最初的一百多年里,科学家们认为真实系统各因素之间的关系可以用一些规则的结构来表示,规则网络成为复杂世界中最普遍的模型;到了 20 世纪 50 年代末,数学家们设计了根据概率决定节点间是否有边的随机网络,并被很多科学家认为是描述真实系统最适宜的网络。最近几年,由于计算机数据处理和运算能力的飞速发展,科学家们发现大量的真实网络既不是规则网络,也不是随机网络,而是具有与前两者皆不同的统计特征的网络,这样的一些网络被科学家们称为复杂网络。
复杂网络中存在着具有多属性的、不同类型节点和丰富的关系结构。复杂网络的特征在人们生活和实践活动中有着广泛的体现和应用。例如,传染病传播和防控、网络数据的知识发现和数据挖掘、病毒传播、网络信息舆论传播、拥塞控制、股票预测、网络故障和传染过程等。尤其是随着网络技术的发展,互联网已经渗透到人类生活的每个角落,并且在悄悄地改变和影响着人类工作和生活的方式,以互联网为媒介所显示出的种种社会网络关系呈现出复杂网络的特征,基于复杂网络分析的社会网络分析、社会网络中聚团关系结构——社区的发现、划分、社区结构性质,以及社区网络的动态演化研究,成为当前社会管理、商业营销、潜在关系分析和预测、知识发现、知识创新等领域所共同关心的科学问题。
根据网络结构的特点,科学家把大多数复杂网络归纳为三类:随机网络、小世界网络和无标度网络。复杂网络的核心研究内容是揭示复杂网络功能和结构之间的内在联系。目前,用于刻画复杂网络结构的重要属性是度分布、平均路长、聚类系数和网络簇结构等。下面基于复杂网络的图模型给出相关属性的定义说明。复杂网络可以是无向图、有向图、加权图或者超图。
一个复杂网络的图模型为 G =( V , E ),其中 V 为点集, E 为边集。本节以无向图为例给出复杂网络中主要特征度量的相关定义。
(1)节点的度:表征了节点与网络中其他节点的连接数。即
式中, k i 为 i 节点的度, a ij 为网络连接矩阵元,当 i 和 j 相连时, a ij =1 ;当 i 和 j 不相连时, a ij = 0。
在有向网络中,节点的度分为入度(in-degree)和出度(out-degree)。节点的入度指其他节点到这个节点的边的个数,出度指从该节点出发到其他节点的边的数目。在有向图中,出度表征了该节点的连接能力,一般称之为中心能力;入度表征了该节点的权威和吸引力、影响力,一般称之为权威能力。在无向图中,节点的度体现了节点的中心性。
(2)度分布:度分布 P k 表示网络中度数为 k 的节点的个数占网络所有节点数的比例,也等于一个任意选择的节点恰好有 k 条边的概率。由于复杂网络中具有极大的节点和边数量,度分布成为揭示复杂网络特征、发现网络分布和演化规律的重要指标。
(3)平均度
:网络中节点的平均度数。
(4)聚类系数:聚类系数 C 用来描述网络中节点的聚集情况,即网络有多紧密。例如,在社会网络中,朋友的朋友可能也是你的朋友或者你的两个朋友可能彼此也是朋友。其计算方法为假设有一个度为 k i 的节点 i ,如果 k i 个节点都相互连接,它们之间应该存在 k i ( k i −1)2条边。假如它们之间实际存在的边数只有 E i 的话,则 E i 与 k i ( k i −1)2之比就是节点 i 的聚类系数,即
网络的聚类系数就是整个网络中所有节点的聚类系数的平均,即
(5)平均最短路径:网络中两个节点 i 和 j 之间的最短路径长度表示为 l ij 。一个网络的平均路径长度 l 表示网络中所有的节点对之间的最短路径上步数的平均值,表达式为:
(6)网络直径:网络直径是指在某个网络中,从一个节点到另一个节点所需要经过的最大的步数。有时, l 也被看作是网络直径。
(7)介数:介数是与最短路径有关的另一个参量,它反映了节点的影响力。在整个网络中,从一个节点沿着最短路径到另一个节点时,会经过一些节点。有些节点被经过的次数明显多于其他节点,这种现象可以由介数来定量地表示,即
式中, b i 是节点 i 的介数, n jk 是连接节点 j 和 k 的最短路径的数量, n jk ( i )是连接节点 j 和 k 且经过节点 i 的最短路径的数量。
在社会经济网中,所谓的交通要道、战略要地等都是介数比较大的节点,介数大的点一般称为枢纽点。如果衡量对象是边,则可以得到边介数值。
介数和出度这两种不同量度标准都在一定程度上反映了节点的连通能力。通过分析,我们认为,介数在一定程度上比出度更准确。因为节点出度仅描述了节点和其他节点间静态的连通关系,而介数描述的是实际最短路径中所要经过的节点情况,是一种实际应用优化解的节点分布情况。
当前所发现的复杂网络的统计特征主要有偏好依附、幂律分布、无标度性、小世界效应、社区结构等。这些不同的统计特征构造出了不同的复杂网络模型。当前常见的几种基本的复杂网络模型有规则网络、随机网络、小世界网络和无标度网络。
1)随机网络
对实际网络建立图模型并进行方法研究最早可追溯到 1736 年,当时伟大数学家欧拉对著名的“哥尼斯堡七桥问题”进行研究,由此诞生了图形理论,欧拉也因此被称为“图论”之父。1960 年匈牙利数学家额尔多斯(Erdos)和任易(Rényi)建立了随机图理论,研究复杂网络中随机拓扑ER模型,自此ER模型一直是研究复杂网络的基本模型。ER随机网络的一种简单表述为:
给定网络节点总数N,网络中任意两个节点以概率
P
连接,当边数达到
n
时停止演化,生成的网络全体记为
G
(
N
,
P
)。由于网络中连线数目是一个随机变量
X
,取值可以从0到
,有
n
条连线的网络数目为
。因此,可生成的不同网络的总数为
,它们服从二项分布。
2)小世界网络
随着计算机存储和处理数据能力的增强,人们对大量的真实网络的数据进行了统计分析,发现真实网络具有较大的聚类系数和较小的平均路径长度。一般把具有这两个特征的复杂网络模型称为小世界网络模型。瓦兹(Watts)和斯卓伽兹(Strogatz)于 1998 年在《自然》杂志上首次提出了小世界网络模型,简称WS模型 [53] ,构造算法描述如下:
(1)构造规则网:构造节点总数为
N
的规则网,每个节点与它左右各
个邻居点相连,这里
K
是一个偶数,并且通常要求
N
≥
K
≥1。
(2)随机化重连:以概率 P 随机地重新连接网络中的每个边,即将边的一个端点保持不变,而另一个端点取为网络中随机选择的一个节点。其中规定,任意两个节点之间至多有一条边,并且每个节点都不能有边与自身相连。
因为不允许重复连线,所以初始构造的规则网只有
条连线。随机化重连时,依次对每条旧连线选定的某一边的端点随机放置新位置,随机重连边的期望值为
PNK
(
N
→∞)。由于随机性的缘故,这些改写的连线可能会出现远距离的连线,它们被称为捷径。显然,当
P
=0 时,每个节点都有
K
个邻居,完全没有随机跳跃边,仍为给定的规则网;当
P
=1 时,所有的边都随机重连,将得到一个特殊的随机网。随着
P
的增加,可以看到从规则网到随机网的变化。复杂网络模型比较如图 1-1 所示。
图 1-1 复杂网络模型比较 [53]
可以看出,WS模型结合了规则网络较大的聚类系数和随机网络较小的平均最短路径的特征,很好地描述了真实网络的小世界特性。
3)无标度网络
随机网络的连接度分布可以近似用Poisson分布来表示,该分布在平均度
k
处有一个峰值,然后呈指数快速衰减。这意味着当
k
>>
时,度为
k
的节点几乎不存在,因此这类网络称为均匀网络或指数网络。但是许多真实网络的连接度分布是幂律分布,即网络中节点的数目与节点的度数呈现出以下关系:
p
k
~
k
−
α
,
α
∈(2,3)。也就是说,在复杂网络中,度数高的节点占极少部分,度数小的节点占了网络中的大部分。
最早发现网络的度分布服从幂律分布的学者是Price。1965 年,Price在研究科学引文网络时发现了网络的度分布服从幂律分布 [54] ,但是当时这一结果并没有引起国际学术界的重视。直到 1999 年,学者Barabàsi和Albert对万维网的数据进行统计分析,发现万维网的度分布也服从幂律分布: p ( k )~ k − r 。由于这类网络的节点的尺度相差悬殊,连接度没有明显的特征长度,故称为无标度网络 [55] 。
与泊松分布和高斯分布尾部呈指数下降不同,幂律分布的尾部下降很慢,因此可能会出现网络中心节点。
Barabàsi和Albert通过分析万维网的产生机理,提出了无标度网络产生的两个基本机制:增长和择优连接,并建立了著名的无标度网络演化模型,简称BA模型。增长意味着网络不是静态的,而是不断演化的动态过程,区别于小世界网络和随机网络的固定节点总数的静态研究;择优连接意味着网络中节点之间的连接不是均等的,而是有偏好的,新加入的节点更倾向于和度大的节点连接。于是,网络在这种规则下不断地演化,形成一个自组织的过程。
由于在无标度网络中,绝大多数的节点都只有很少的连接,因此对一般的随机错误具有很强的免疫力,从而显示出较强的稳健性,但同时又由于只有少数节点具有大量的连接,即存在一些关键的中枢节点,对这些节点恶意的攻击则往往使整个系统表现出脆弱性和易伤害性。
当前与互联网、社会网络紧密相关的一个热门研究领域是社会网络计算,虽然迄今为止仍没有一个准确定义,但是大部分研究者认同它包含了两个方面的研究:一种是着眼于计算机技术在社会中如何应用,从而影响传统社会行为的研究。这个角度多限于微观和技术的层面,从人机交互(HCI,Human Computer Interaction)等相关研究领域出发,研究用以改善人使用计算机和信息技术的手段,社会软件是这类研究的主要成果表现。另一种则是借助计算技术和信息技术的力量,基于社会科学知识、理论和方法帮助人类认识和研究社会科学的各种问题,以提升人类社会活动的效益和水平。这类研究试图从宏观的层面来观察社会,凭借现代计算技术的力量,解决以往社会科学研究中使用经验方法和数学方程式等手段难以解决的问题。
本书中的社会网络计算与这两种社会网络计算的内涵有交叉,也有区别。由于现代人机交互技术促发了大量社会软件,如E-mail、网上论坛、办公自动化系统、群件(Groupware)、博客(Blog)等,帮助人类基于计算机网络构建了更多的人与人之间沟通的虚拟空间,产生了许多新型网络资源,而这些网络资源背后隐含的社会特征有助于发现并设计有效的资源组织管理体系。本书中的社会网络计算以社会软件为主体的第一种社会网络计算为背景基础,与第二种社会网络计算类似,但本书社会网络计算的目的与其目的不同,本书的社会网络计算是面向网络资源分布规律的研究,试图通过社会学相关理论、社会观察经验等挖掘发现表面无序、动态开放资源间的关系拓扑,以辅助人们设计出更有效的网络资源组织管理体系。