重塑基础思维，应对复杂世界（全11册）最新章节_纳西姆·尼古拉斯·塔勒布著

3.3　一种（更合理的）厚尾分类方式及其效应

下面我们先以一种简单的分类来考量厚尾的程度（本书后面会逐步深入展开），不同分布按厚尾的严重程度排序如下：

分布特征：

厚尾分布⊃亚指数分布⊃幂律分布（帕累托分布）

排在前面的是入门级厚尾分布，这一类包括了所有尾部厚度超过正态的分布，如在一个正负标准差之内的概率大于〔误差函数erf是高斯分布的积分〕且峰度高于3〔随机变量X的p阶矩是X的p次方的期望，〕的各类分布。

排在第二的是满足我们之前实验的亚指数分布（灾难原则），在触及幂律分布之前，这类分布并不算真正意义上的厚尾，因为其统计性质并不由罕见事件主导。换句话说，这类分布的各阶矩依然存在。

排在第三的分布有很多种名称，有的被称为幂律分布，有的被称为正规变化分布，或“帕累托尾”分布。这些才是真正的厚尾分布，且肥尾程度依赖于其尾部参数。这里暂时不展开讨论尾部参数，我们可以认为这类分布的某阶矩无穷大，并且高于该阶的矩均为无穷大。

下面我们对着图3.6从下往上看，最左下角的是退化分布，只有一种可能的结果（不存在随机性，没有变化）。在这之上是伯努利分布，只有两种可能的结果，没有其他可能性。再往上是两种高斯分布，分别为自然高斯分布（允许出现正负无穷）和从随机游走中求和而来的高斯分布（紧支撑，除非我们用无穷多的变量来求和〔紧支撑的意思是，实数随机变量X在一个有界范围内取值，如[a,b]、(a,b]、[a,b)等等。由于高斯分布有偏差呈指数e ^−x2 下降的趋势，所以阿德里安·杜阿迪等人把高斯分布归为紧支撑。〕）。这两种高斯分布完全不同，一个允许到无穷，另一个不允许（极限趋近不算）。然后，在高斯分布之外是不属于幂律类分布的亚指数分布，这类分布的各阶矩都存在。亚指数分布包含对数正态分布，这里我们经常搞混，这也是统计领域中最奇怪的事情之一，对数正态分布在方差较小的时候是薄尾分布，而在方差较大的时候是厚尾分布。有些人看到手上的数据，发现不是幂律分布而是对数正态分布，以为是件好事，但事实并非如此。第八章我们会展开讨论对数正态分布的奇怪特性。

图3.5　当观测值数目n增大时，均值的分布会发生怎样的变化？这是图3.5在分布/概率空间的表达。肥尾分布并不像高斯分布那样很快就压缩到中心。你需要更大的样本集来求解，事实就是这样。

图3.6　不同收敛性下的厚尾分类图（大数定律的收敛性）以及经验外推问题的严重程度，幂律分布类用白色表示，其余用黄色表示，见恩布列切等 ^[82] 。

亚指数类中的分布不满足克拉默条件，从而使保险成为可能，可以回顾本章开始时的小实验（如图3.1所示）。更严谨地讲，克拉默条件意味着随机变量的指数期望存在。〔数学描述：假设有随机变量X，克拉默条件意味着：对所有r＞0，是求期望操作符。〕

一旦离开了黄色区域，也即大数定律（LLN）起作用的区域，中心极限定律将不再有效，然后将面临收敛性问题。在这里，我们会遇到幂律分布，将根据尾部指数α来区分其厚尾程度，尾部指数越小，尾部越肥。当时，我们称其为超立方分布（α=3时是立方分布）。按照非正式的边界划分：分布只存在一阶矩和二阶矩，此时理论上大数定律和中心极限定理依然有效。

然后是的分布类，我们简单归纳为列维稳定分布[虽然该类也包含α＜2的幂律分布，但在理论上，当我们对该类随机变量求和时，由于广义中心极限定理（GCLT）的存在，总和最终会落在和原来相同的分布类型中，而不是向高斯分布收敛]。从这里开始我们会遇到一些问题，因为方差不再存在。在的情况下，虽然方差不存在，但是平均绝对偏差依然存在（变量的平均绝对值差异）。

再往上到最外层顶部，连均值都不存在了。我们将其称为“别想了”。如果看到这一类分布，你就径直回家，不用再谈论它了。

对传统的统计学家来说，处理厚尾的方法向来是假设一个不同于正态的分布，然后一切照旧，使用相同的统计指标、统计测试和置信度区间进行研究。而一旦离开上述黄色区域，再使用常规统计手段，事情就不像我们想的那样了。下一节我们会介绍随之而来的十几个衍生问题，几乎都是终极问题。后面我们会引入一些术语，并给出更数量化的表达。

将统计过度标准化带来的问题

统计估计基于两大基本元素：中心极限定理（假设对“大量”变量求和成立，从而很方便地将一切都归到正态分布上）和大数定律（当样本规模增加的时候预测方差降低）。但是事情并没有那么简单，我们需要考虑一些注意事项。在第八章中，我们将展示取样是如何依赖于分布，并在同一分布类中展现出巨大差异的。布绍和波特 ^[27] 与索内特 ^[214] 认为，在随机变量求和的过程中，某些方差有限但高阶矩无限的分布可以在的范围内收敛到高斯分布，也即在这个中心范围内成为高斯分布，但是较远的尾部区域则不再如此——而恰恰是较远的尾部决定了主要的统计性质。

人生正是在渐进过程中展开的。

遗憾的是，在经典的《统计学百科全书》 ^[147] 关于统计估计的条目中，霍夫丁写道：

统计量的实际分布通常非常复杂，很难进行处理。因此，人们需要更简单、性质更清晰的分布来近似描述实际分布。而概率论中的极限定理为这种近似提供了重要工具。经典的中心极限定理表明，一般情况下，大量独立随机变量的和近似于正态分布。实际上，在所有可能的分布中，正态分布占绝对主导地位。这里引用格涅坚科和科尔莫戈罗夫的论述（ ^[111] ，第5章）：

然而，对于限制独立随机变量的和分布收敛到正态分布这一规律，除了通过使变量无穷小（或渐近于常数），就只有对求和本身进行限制了。如果想要收敛到另一种极限分布，则求和函数本身需要一些非常特殊的性质。

此外，许多统计量的渐进行为类似于独立随机变量的和。上述这些都有助于解释正态分布作为渐进分布的重要性。

那么，在尚未达到高斯分布时应该怎么办？我们的人生对应的是渐进阶段，这也是本书要探讨的内容。

3.3 一种（更合理的）厚尾分类方式及其效应

将统计过度标准化带来的问题

3.3　一种（更合理的）厚尾分类方式及其效应