下面我们先以一种简单的分类来考量厚尾的程度(本书后面会逐步深入展开),不同分布按厚尾的严重程度排序如下:
分布特征:
厚尾分布⊃亚指数分布⊃幂律分布(帕累托分布)
排在前面的是入门级厚尾分布,这一类包括了所有尾部厚度超过正态的分布,如在一个正负标准差之内的概率大于 〔误差函数erf是高斯分布的积分 〕且峰度高于3〔随机变量X的p阶矩是X的p次方的期望, 〕的各类分布。
排在第二的是满足我们之前实验的亚指数分布(灾难原则),在触及幂律分布之前,这类分布并不算真正意义上的厚尾,因为其统计性质并不由罕见事件主导。换句话说,这类分布的各阶矩依然存在。
排在第三的分布有很多种名称,有的被称为幂律分布,有的被称为正规变化分布,或“帕累托尾”分布。这些才是真正的厚尾分布,且肥尾程度依赖于其尾部参数。这里暂时不展开讨论尾部参数,我们可以认为这类分布的某阶矩无穷大,并且高于该阶的矩均为无穷大。
下面我们对着图3.6从下往上看,最左下角的是退化分布,只有一种可能的结果(不存在随机性,没有变化)。在这之上是伯努利分布,只有两种可能的结果,没有其他可能性。再往上是两种高斯分布,分别为自然高斯分布(允许出现正负无穷)和从随机游走中求和而来的高斯分布(紧支撑,除非我们用无穷多的变量来求和〔紧支撑的意思是,实数随机变量X在一个有界范围内取值,如[a,b]、(a,b]、[a,b)等等。由于高斯分布有偏差呈指数e −x2 下降的趋势,所以阿德里安·杜阿迪等人把高斯分布归为紧支撑。〕)。这两种高斯分布完全不同,一个允许到无穷,另一个不允许(极限趋近不算)。然后,在高斯分布之外是不属于幂律类分布的亚指数分布,这类分布的各阶矩都存在。亚指数分布包含对数正态分布,这里我们经常搞混,这也是统计领域中最奇怪的事情之一,对数正态分布在方差较小的时候是薄尾分布,而在方差较大的时候是厚尾分布。有些人看到手上的数据,发现不是幂律分布而是对数正态分布,以为是件好事,但事实并非如此。第八章我们会展开讨论对数正态分布的奇怪特性。
图3.5 当观测值数目n增大时,均值的分布会发生怎样的变化?这是图3.5在分布/概率空间的表达。肥尾分布并不像高斯分布那样很快就压缩到中心。你需要更大的样本集来求解,事实就是这样。
图3.6 不同收敛性下的厚尾分类图(大数定律的收敛性)以及经验外推问题的严重程度,幂律分布类用白色表示,其余用黄色表示,见恩布列切等 [82] 。
亚指数类中的分布不满足克拉默条件,从而使保险成为可能,可以回顾本章开始时的小实验(如图3.1所示)。更严谨地讲,克拉默条件意味着随机变量的指数期望存在。〔数学描述:假设有随机变量X,克拉默条件意味着:对所有r>0, 是求期望操作符。〕
一旦离开了黄色区域,也即大数定律(LLN)起作用的区域 ,中心极限定律将不再有效 ,然后将面临收敛性问题。在这里,我们会遇到幂律分布,将根据尾部指数α来区分其厚尾程度,尾部指数越小,尾部越肥。当 时,我们称其为超立方分布(α=3时是立方分布)。按照非正式的边界划分:分布只存在一阶矩和二阶矩,此时理论上大数定律和中心极限定理依然有效。
然后是 的分布类,我们简单归纳为列维稳定分布[虽然该类也包含α<2的幂律分布,但在理论上,当我们对该类随机变量求和时,由于广义中心极限定理(GCLT)的存在,总和最终会落在和原来相同的分布类型中,而不是向高斯分布收敛]。从这里开始我们会遇到一些问题,因为方差不再存在。在 的情况下,虽然方差不存在,但是平均绝对偏差依然存在(变量的平均绝对值差异)。
再往上到最外层顶部,连均值都不存在了。我们将其称为“别想了”。如果看到这一类分布,你就径直回家,不用再谈论它了。
对传统的统计学家来说,处理厚尾的方法向来是假设一个不同于正态的分布,然后一切照旧,使用相同的统计指标、统计测试和置信度区间进行研究。而一旦离开上述黄色区域,再使用常规统计手段,事情就不像我们想的那样了。下一节我们会介绍随之而来的十几个衍生问题,几乎都是终极问题。后面我们会引入一些术语,并给出更数量化的表达。
统计估计基于两大基本元素:中心极限定理(假设对“大量”变量求和成立,从而很方便地将一切都归到正态分布上)和大数定律(当样本规模增加的时候预测方差降低)。但是事情并没有那么简单,我们需要考虑一些注意事项。在第八章中,我们将展示取样是如何依赖于分布,并在同一分布类中展现出巨大差异的。布绍和波特 [27] 与索内特 [214] 认为,在随机变量求和的过程中,某些方差有限但高阶矩无限的分布可以在 的范围内收敛到高斯分布,也即在这个中心范围内成为高斯分布,但是较远的尾部区域则不再如此——而恰恰是较远的尾部决定了主要的统计性质。
人生正是在渐进过程中展开的。
遗憾的是,在经典的《统计学百科全书》 [147] 关于统计估计的条目中,霍夫丁写道:
统计量的实际分布通常非常复杂,很难进行处理。因此,人们需要更简单、性质更清晰的分布来近似描述实际分布。而概率论中的极限定理为这种近似提供了重要工具。经典的中心极限定理表明,一般情况下,大量独立随机变量的和近似于正态分布。实际上,在所有可能的分布中,正态分布占绝对主导地位。这里引用格涅坚科和科尔莫戈罗夫的论述( [111] ,第5章):
然而,对于限制独立随机变量的和分布收敛到正态分布这一规律,除了通过使变量无穷小(或渐近于常数),就只有对求和本身进行限制了。如果想要收敛到另一种极限分布,则求和函数本身需要一些非常特殊的性质。
此外,许多统计量的渐进行为类似于独立随机变量的和。上述这些都有助于解释正态分布作为渐进分布的重要性。
那么,在尚未达到高斯分布时应该怎么办?我们的人生对应的是渐进阶段,这也是本书要探讨的内容。