幂律分布广泛存在于社会生活中,例如大多数微博用户只有几百个粉丝,而少数知名博主却拥有百万甚至千万级粉丝量;抖音短视频平台中,拥有数百万播放量的热门视频少之又少,大部分视频播放量不足一千。为了充分刻画个体与个体之间的差异,本节主要从幂律的定义以及幂律的应用两个方面介绍相关知识。
现实世界有些情况下个体与个体之间的差异并不明显。例如,《中国居民营养与慢性病状况报告 (2020年)》指出中国18岁至44岁成年男子的平均身高为169.7厘米,说明绝大部分男生的身高均在该平均身高左右,符合正态分布。然而在某些情况下个体与个体之间却存在显著的差异。例如根据《中国统计年鉴 (2020年)》,我国社会目前90%的人月收入在5000元左右,月收入过百万的人占比不足0.1%。类似居民个人收入,生活中存在诸多多数个体量级较小而少数个体量级很大的情况,显然正态分布无法刻画这些现象。
20世纪40年代初期,美国哈佛大学语言学家乔治·齐夫 [5-6] 对语言的演化开展统计学研究。他首先统计了英文单词在文学作品中的出现次数(即频率),然后按照频率高低将单词进行了排序。经研究发现一个单词出现的频率与它在频率表中的排序值的常数次幂成反比,若某单词排序值为 r ,则其在语料库中出现的频率 f ( r )满足:
其中, α 表示非0常数。同时,齐夫发现排在第1位单词的频率大约是排在第2位单词的频率的2倍,是排在第3位单词的频率的3倍,第4位单词的频率的4倍。依次类推,排在第 r 位的单词其频率应为排在第1位单词频率的1/ r 。例如,在布朗语料库 (Brown Corpus)中排在前三位的单词分别为“the”(69971次)“of”(36411次)“and”(28852次),比例约为6∶3∶2。此外,单词排序值 r 与其频率 f ( r )的乘积近似为一个定值。例如,对于单词“the”,其 r =1、 f ( r )=69971,则 r × f ( r )=1×69971=69971;对于单词“of”而言,有 r × f ( r )=2×36411=72822;同理,对于单词“and”,有 r × f ( r )=3×28852=86556。虽然在布朗语料库中三个单词的排序值与频率的乘积存在一定的差异,但是随着语料库的增大,二者的乘积逐渐倾向于一个定值,即满足:
其中, C 为一定值。
通常将满足式(4-1)和式(4-2)的分布称为齐普夫定律(Zipf's Law),然而齐普夫定律只是一个语言学的统计规律,它表明英语单词中绝大多数单词很少被使用,只有极少数单词被频繁使用。如图4-1所示,维基百科中被使用次数最多的单词是定冠词“the”,其次是“of”“and”等无实际意义的连词 。齐普夫定律满足语言学的发展过程,极少数单词被频繁地使用恰恰有利于人们使用尽可能少的词汇表达更加丰富的语义信息。
实际上齐普夫定律是幂律的一种雏形,数十年来人们不断地研究社会生活中的幂律分布,对其内涵进行剖析。幂律定义如下 [2] :
幂律,又称幂法则,主要描述一个量随着另一个量的幂次的变化而产生相对变化的函数关系,该关系与两个变量的初始大小无关。
幂律的形式化描述为
其中, α 和 k 均为常数, o ( x - k )是变量 x 的一个逼近极小函数。
利用程序构造幂律分布如图4-2所示,图中黑色点表示从0~1000的自然数中按照式(4-3)随机采样的100个数据点( α =10, k =0.3),曲线为数据点的拟合曲线。在如图4-2 a所示的幂律分布示例中可以明显发现曲线的右边好似拖着一条长长的尾巴,体现了“长尾效应” [7] ,其对应的函数值较小;而左边的“狭小”区域虽然面积较小,但是却拥有较高的函数值,正如帕累托法则(Pareto's Principle) [8] 所述:在任何一组事物中,最重要的部分往往只占其中的少部分,约20%。因此 幂律分布的曲线形状表现形式是不断下降的,先存在一个最高峰,然后开始急速下降,当下降到一定量级时下降的速度变得非常缓慢 [2] 。对式(4-3)等号两端同时取对数,忽略逼近函数 o ( x - k ),得到:
图4-1 维基百科Top-100单词使用频率图
图4-2 幂律分布示例图
易知ln f ( x )与ln x 满足线性关系。正如图4-2 b所示, 幂律分布在对数坐标下可以表示为一条斜率为幂指数的负数的直线 。这一线性关系是研究人员判断给定数据分布是否满足幂律分布的重要依据 [9] 。
大量研究表明幂律广泛存在于社会学、经济学、物理学、生物学等众多领域,例如互联网中网页被访问次数 [10] 、金融市场波动 [11] 、地震规模大小 [12] 、多数国家姓氏的分布 [13] 、学术论文引用次数分布 [14] 、音乐唱片销量 [15] 、每类生物物种数的分布 [16] 等。经典幂律分布幂指数对比如表4-1所示。本节将介绍幂律在多个领域的典型应用。
表4-1 经典幂律分布幂指数对比
19世纪意大利著名的经济学家帕累托 在研究意大利社会财富分配结果时发现少数人的收入要远远高于大多数人的收入,因此提出了著名的 80/20法则 [8] :20%的人口占据了80%的社会财富 。
若令 X 表示个人收入,则 X 不小于某个特定收入值 x 的概率与 x 的常数次幂满足反比关系,即社会个人收入情况符合幂律分布:
其中, k 为非负常数。
而现实发展的比理论更加夸张,以美国的个人收入为例,2020年美国的人均收入为3.88万美元,而中位数则是2.7万美元。普通人的年收入普遍在两万到三万美元的区间,但是,富豪的收入极为夸张,截至2021年美联储的统计调查显示,美国前1%的富豪收入比例占国民收入的27%,即美国百分之一的人拥有国家超过四分之一的财富。
地震是严重的自然灾害,全世界每年发生的地震次数在五百多万次,但是能对人类造成伤害的大概在一二百次。虽然地震区域分布在各个国家,但是某个地区的震级和该震级对应的地震次数也满足幂律关系。1956年地震学家古登堡与里克特提出了著名的 古登堡-里克特定律 (Gutenberg-Richter Law) [21] ,用于表示某一地区震级与大于等于该震级地震次数的关系:
其中, M 表示特定的震级, N 表示震级大于或等于 M 的地震次数, a 为常数, b 值是与地下应力状态相关的常数 [22] 。
1999年,巴拉巴西等人 [1] 指出,一个具有时间标签的网络在其增长的过程中具有一定的优先连接性,即虽然原则上新加入网络的节点可以连接到任何先前存在的节点,但这种选择不是完全随机的,而是与网络中节点度存在线性关系 [4] 。网络中两个节点之间连接性的初始差异将随着网络的增长而进一步增加,各个节点的度值将与时间的平方根成比例地增长 [23] 。因此,随着网络规模的扩大,具有较多连接的节点会拥有越来越多的连接。如果使用“度”这个概念来替代“连接”,那么节点的度在整个网络中也是遵循幂律分布的 [24] 。
在对幂律分布进行多方面研究之后,研究人员将幂律关系的着眼点放在了科学本身及其所产生的影响力方面 [14] 。随着计算机科学的进一步发展,尤其是海量图书扫描以及电子出版物和信息学档案的构建,推动了对人类科学文化的大规模探索。王等人 [25] 提出了一种量化长期科学影响的机制模型,该模型使用论文和科学出版物的数量来衡量科学家的影响力。他们将来自不同期刊和学科的论文的引文历史分解为一条曲线,并表明所有论文都倾向于遵循相同的幂律曲线模式。