法兰克·本福特(Frank Benford,1883—1948)本来是一名美国电气工程师,也是一名物理学家,在美国通用电气公司实验室里工作多年直到退休。他在50多岁的时候,迷上了一个与概率有关的课题。课题结论便是现在我们所说的“本福特定律”。事实上,最早发现本福特定律的人并不是本福特,而是美国天文学家西蒙·纽康(Simon Newcomb,1835—1909)。纽康于1877年成为美国航海天文历编制局局长,并组织同行们重新计算主要的天文常数。繁杂的天文计算经常需要用到对数表,但那个时代没有互联网,对数表只能被印成书本存于图书馆中。细心的纽康发现一个奇怪的现象:对数表中包含以1开头的数的那几页比其他页破烂得多,似乎表明计算所用的数值中,首位数是1的概率更高。因此他在1881年发表了一篇文章,提到并分析了这个现象 [4] ,但没有引起人们的注意。直到1938年,本福特重新发现这个现象。说来令人奇怪,科学定律的发现有时候来自一些小得不能再小的现象,本福特的发现便是如此:以1开头的数字比较多,这也算是一个定律吗?本福特发现这种现象不仅仅存在于对数表中,也存在于其他多种数据中。于是,本福特检查了大量数据并证实了这点 [5] 。
本福特定律是一个乍听起来有点奇怪并违反直觉的现象,我们先举一个例子说明它。
设想某银行有1000多个存储账户,金额不等。比如说,小张有存款23587元、老李有1345元、小何有35670元、刘红有9000元、王军有450元……奇怪的本福特定律对存款金额本身不感兴趣,而是对这些数值的第一位有效数字是什么感兴趣。有效数字指的是这个数的第一个非零数字,例如8.1、81、0.81的第一位有效数字都是8,前述几个人存款数的第一位有效数字分别是2、1、3、9、4。所以,本福特定律也叫“首位数字定律”。
一个数的第一位(非零)数字可能是1到9之间的任何一个。现在,如果问大家,在刚才那个银行的上千个存款数据中,第一位数字是1的概率是多少?
不需要经过很多思考,大部分人会很快地回答:应该是1/9吧。因为从1到9,9个数字排在第一位的概率是相等的,每一个数字出现的概率都是1/9,为11%左右。
这个听起来十分正常的思维方法,却与许多自然得到的数据所遵循的规律不一样。人们发现,很多情况下,第一个数字是1的概率要比靠直觉预料的11%大得多。数字越大,出现在第一位的概率就越小,数字9出现于第一位的概率只有4.6%左右。各个数字出现在第一位的概率遵循如图1-4-1(a)所示的概率分布。
本福特和纽康都从数据中总结出首位数字为 n 的概率公式(本福特定律):
图1-4-1 本福特定律(首位数定律)及其应用实例
彩图1-4-1
P ( n )=log d (1+1/ n )
其中 d 取决于数据使用的进位制。
对十进制数据而言, d =10,也写作 P ( n )=lg(1+1/ n )。因此,根据本福特定律,首位数是1的概率最大,lg2≈0.301,十成中占了三成;首位数是2的概率lg(3/2)≈0.1761;然后逐次减小,首位数是9的概率最小,只约等于4.6%。图1-4-1(b)所示的是符合本福特首位数法则的几个例子:人口统计、物理基本常数、斐波那契数、阶乘。
本福特收集并研究了20229个统计数据,分成20组,包括如河流面积、人口统计、分子及原子质量、物理常数等多种来源的资料。数据来源虽然千差万别,却基本上符合本福特的对数法则,见表1-4-1所示的数据表。表中的最后一行数值,是根据本福特的对数规则计算得到的每个数字出现于首位的概率,读者可以将它与真实数据相比较。
表1-4-1 本福特从大量数据中得到的首位数字概率表 %
本福特定律适用范围异常广泛,自然界和日常生活中获得的大多数数据都符合这个定律。尽管如此,毕竟还是有其应用范围,主要是受限于如下几个因素:①这些数据必须跨度足够大,样本数量足够多,数值大小最好相差几个数量级;②人为规则的数据不满足本福特定律,比如说按照某种人为规则设计选定的电话号码、身份证号码、发票编号,以及彩票上的随机数据等,都不符合本福特定律。
尽管本福特和纽康都总结出了首位数字的对数规律,但并未给出证明。直到1995年美国学者泰德·黑尔(Ted Hill)才从理论上对该定律做出解释,并进行了严谨的数学证明 [6] 。虽然本福特定律在许多方面都得到了验证和应用,但对于这种数字奇异现象人们依旧是迷惑不解。到底应该如何直观理解本福特定律。为什么大多数数据的首位数字不是均匀分布,而是对数分布的?
有人探求数“数”的方法,来直观地理解本福特定律。他们的意思是说,当你计算数字时,顺序总是从1开始,1,2,3,…,9,如果到9就终结的话,所有数起首的机会都相同,但9之后的两位数10至19,以1起首的数则大大多于其他数字。之后,在9起首的数出现之前,必然会经过一堆以2,3,4,…,8起首的数。如果这样的数法有个终结点,然后又重新从1开始的话,以1起首的数的出现率一般都应该比较大。
可以用这种理解方法来解释街道号码(地址)一类的数据。一般来说,每条街道的号码都是从1算起,街道长度有限,号码排到某一个数就终止了。另一条街又有它自己的从1开始的号码排列,这样的话,1开头的号码是要多一些的。但这种解释也太不“数学”了!况且,这种理解无法说明另一类数据为什么也符合本福特定律。比如,“物理常数”的集合、出生率、死亡率等,就不是从1开始计算到有限长度就截止的那种数据了。
另一种解释认为本福特定律的根源是由于数据的指数增长。指数增长的序列,数值小的时候增长较慢,由最初的数字1增长到另一个数字2,需要更多时间,所以出现率就更高了。举个例子来深入说明这个道理,考虑你有100美元存到银行里,年利率是10%。在25年中,你每年的存款金额将是(单位:美元,只保留了整数部分):
100、110、121、133、146、161、177、195、214、236、259、285、314、345、380、418、459、505、556、612、673、740、814、895、985
这是一个指数增长的序列。在这组数据的25个数中,首位数字为1的有8个(32%);2的有4个;3的有3个;…9的只有1个(4%)。那是因为从首位为1增加到首位为2,经过了更长的时间(8年);从首位为2,只经过4年就变成了首位为3;而首位为9的话,下一年就不是9了。所以,指数增长规律的数列的确符合本福特定律。
读者也许会有疑问:上面的数列选择从100开始,1打头的比较多,如果从别的数字开始,规律是否会改变呢?我们可以试验一下,从别的数开始得到的数列,是否也一样符合本福特法则。比如说,将以上银行存款金额乘以2之后得到的序列:
200、220、242、266、292、322、354、390、428、472、518、570、628、690、760、836、918、1010、1112、1224、1346、1480、1628、1790、1970
以1开头的有8个,9开头的只有1个,仍然是1开头的数目最多。或者,也可以将美元换算成人民币,会发现得到的数据仍然遵循本福特定律,这些事实说明本福特定律具有“尺度不变性”。
不管如何诠释本福特定律,它都是一个客观存在,并且十分有用!大多数财务方面的数据,都满足本福特定律,因此它可以用来检查财务数据是否造假。
美国华盛顿州曾侦破过一个当时最大的投资诈骗案,金额高达1亿美元。诈骗主谋凯文·劳伦斯及其同伙,以创办高技术含量的连锁健身俱乐部为名,从5000多名投资者手中筹集了大量资金。然后,他们挪用公款来满足自身享乐,为自己买豪宅、豪华汽车、珠宝等。为了掩饰不法行为,他们将资金在海外公司和银行间进行频繁转账,并且人为做假账,给投资者造成生意兴隆的错觉。所幸有一位会计师感觉不对头,他将7万多个与支票和汇款有关的数据收集起来,将这些数据首位数字发生的概率与本福特定律相比较,发现这些数据通过不了本福特定律的检验。最后经过3年的司法调查,这个投资骗局终于被拆穿。2002年,劳伦斯被判坐牢20年。
2001年,美国最大的能源交易商安然公司宣布破产,并传出公司高层管理人员涉嫌做假账的消息。据说安然公司高层改动过财务数据,因而他们所公布的2000—2001年每股盈利数据不符合本福特定律(图1-4-2)。此外,本福特定律也被用于股票市场分析、检验选举投票欺诈行为等。
图1-4-2 安然公司数据和本福特定律
(图片来源:华尔街日报 [7] )
美国税务局也利用本福特定律来检验报税表,揪出逃税、漏税行为。据说有人曾经用此定律来检验美国前总统克林顿在任10年内的报税数据,不过没有发现破绽。
概率论由研究赌博问题而诞生,又在不断地提出和解决各种有趣的赌博问题中发展起来。下一节中将介绍大数定律以及更多与赌博有关的概率问题。