重塑基础思维，应对复杂世界（全11册）最新章节_纳西姆·尼古拉斯·塔勒布著

4.4　肥尾、平均差和上升范数

接下来，我们将讨论标准差的滥用及存在的问题。

4.4.1　常见误区

让我们先从标准差和方差开始，由此一窥高阶矩的性质。那么，什么是标准差？我们对肥尾的误解似乎也污染了我们对标准差的理解。

标准差（假设均值和中位数为0）和平均差的差异在肥尾条件下会加大，如图4.5所示。该图为我们提供了对两者的基础认知。

图4.5　比较K+x ² 和K+|x|的行为。在随机变量x取值较大时，两个加权函数的差别会越发显著，由此也解释了两者（以及更一般化的高阶矩）在肥尾条件下的差异。

本书作者和丹·戈尔茨坦 ^[113] 曾向金融工程领域的毕业生提过一个问题，他们是每天和风险/标准差打交道的人。

某只股票（或基金）的平均回报为0%，价格每天平均移动1%（绝对值），也即上行时平均涨1%，下行时平均跌1%。当然不是刚好1%，有时候是0.6%，有时候是1.45%，等等，整体均值为1%。

假设我们生活在高斯分布的世界中，收益率（或每日百分比变动）可以用正态分布建模表示，假定一年有256个交易日，那么收益率的标准差（百分比变化，也即金融领域中的波动率σ）是多少？

日收益率的标准差是多少？

年化收益率的标准差又是多少？

读者可以看到，该问题描述的实际上是平均差，而我们得到的答案一般都是错误的。大家一般会认为，日收益率的标准差为1%，但是平均变动偏差为1%的高斯随机变量，其标准差要更高些，约为1.25%。如果以股票市场的实际经验分布来看，标准差约为1.7%。对于年化标准差大家一般会说是16%，这大约是真实值的80%。将日标准差乘以进行年化调整没有问题，这主要取决于日收益率是否正确。

因此，大家会在直观上把标准差（STD）想成平均差（MAD）。当这些金融从业者每天讨论波动率和标准差的概念时，他们实际上用平均差对应标准差，采用的是错误的测度，这也会导致实际数值被低估20%～40%。而在一些极端市场中，低估程度甚至可以达到90%。哪怕有人直接指出两者存在差异，他们也无法立刻意识到错误，但如果我们继续问标准差的公式，他们又能给出正确的表达式：平均平方偏差的开方。有些人还会感到困惑，因为他们没有听过平均差的概念。

为什么这一点很重要？因为这意味着决策者每天在来来回回讨论“波动率”，却不知道其真实含义。如果去看一些相关的新闻，有些媒体人在解释波动率指数“VIX”的时候也会犯同样的错误。甚至连商务部的官方网站都错误地定义了波动率。

此外，由詹森不等式，MAD小于STD，人们认知中的波动被系统性地低估了。

两者的比值是如何上升的 对于高斯分布，该比值约为1.25，一旦存在肥尾，比值就会逐渐上升。

示例： 可以观察一个极度肥尾分布，n=10 ⁶ ，除了一个观测值为10 ⁶ ，其余所有值均为-1。

其平均差MAD（X）=2，而标准差STD（X）=1 000，标准差/平均差为500。

4.4.2　指标分析

薄尾分布的比值 考虑比值h作为一般分析指标：

为期望操作符（在所需的统计测度下，X是中心化变量，该比值随着肥尾程度的加重而上升。（最一般的情况为假定分布n阶及以下的矩均存在，n=2是其中的特例。）

我们可以简单地将X ^p 视为对X进行X ^p−1 加权的操作符，在X较大时其权重较高，在X较小时其权重较低。

该效应源自不同函数的凸性差异，|X|偏线性，在除中心区域以外的地方不存在凸性效应。

平均差vs标准差，定量探究 为什么统计学选择了标准差而非平均差？虽然文献中没有给出过量化推导，但我们可以参见休伯 ^[131] 阐释的历史缘由：

1920年，爱丁顿和费雪就dn（平均差）和Sn（标准差）之间的相对优劣有过一次争论。费雪指出，对于正态分布的观测，Sn比dn要有效12%，而这似乎决定了后来人们的习惯（我的猜想）。

那么我们重新推导一下费雪所说的概念。

令n为求和数量：

假如我们知道样本内X _i 服从归一化的高斯分布（均值为0，标准差为1）。

相对标准偏差误差x ² 的特征函数Ψ ₁ (t)可以表示为：Ψ ₁ (t)= 令平方偏差z=x ² ,n变量求和的密度函数f满足：

现在令对应自由度为n的卡方分布。积分后可以得到方差我们有

相对平均偏差的误差 |x|的特征函数是折叠正态分布，下面我们进行推导：

最终，高斯分布的渐进相对效率为：

这就意味着，在他们的语境中， 数据符合高斯分布 的前提下，标准差比平均差要“有效”12.5%（可参考图4.6），这些家伙接受了这个论点。但只要把条件稍稍放松，上述比值就不再成立。后面会解释为什么正态分布在绝大多数情况下都不适用，现在先让我们看看STD有多脆弱。

4.4.3　肥尾效应对STD vs MAD“有效性”的影响

假设一个标准波动率混合模型，其偶尔跳跃的概率为p。我们在下列高斯分布中变换（保持均值为0）：

可以通过简单的蒙特卡罗模拟来实现。令p=0.01和n=1 000，图4.8展示了a=2时带来的问题，只要存在一个异常值，MAD就会立刻比STD更“有效”。而5倍标准差的小“异常”会使MAD有效5倍。

图4.7　哈拉尔德·克拉默，提出了克拉默条件和破产问题。

4.4.4　矩和幂均不等式

图4.9　方差有限幂律分布的平均差（蓝色）vs标准差（黄色）。结果和预期一致（平均差的分布更薄尾），同时标准差的方差为无穷大，因为对于尾部指数α的帕累托分布，其平方分布的尾部指数为，在本例中，标准差比平均差要高5倍。

图4.10　对于高斯分布，平均差和标准差之间存在微小的差异（调整两者均值以方便比较）。

对于所有的下面的不等式均成立：

其中权重ω _i 为正值且和为1（注意，我们为满足三角不等关系，避开了p＜1）。

证明对于正值p和q的证明如下。定义下列函数幂律函数f(x)的二阶导数如下：

在f的定义域上严格为正，因为q＞p且f为凸函数，由詹森不等式：然后对两边同时乘方1/q（增函数，因为1/q为正），就可以得到

我们研究肥尾效应，非常关键的一点在于，在保持低阶范数不变时，离散化分布会使高阶范数上升。比如，以简单的X={1,1}分布为例，在保持不变的情况下扰动使可以得到如下高阶范数：

如果增加离散程度，使范数会进一步升高：

可以看到，如果除去限制条件或允许存在负值，高阶矩会出现爆炸式增长。

对于矩无穷大的幂律分布，我们可以得到一条有用的性质：

高斯分布示例 为不失一般性，假设有x～N(0,σ)的高斯分布（均值为0），是X的期望操作符，

这里Γ(z)是欧拉伽马函数；奇数矩的比值为0，偶数矩：

对于四阶矩，该比值为

对于尾部指数α=3的幂律分布，比如学生T分布来说，

在幂律分布的矩为“无穷大”的时候，我们会再讨论肥尾的定义和其他的统计量。因此，上述矩对平均差的比值分析只适用于样本内，并不适用于样本外。

帕累托分布示例 对于最小值和尺度均为L的标准帕累托分布，标准差为如果以均值为中心，我们有：

“无限”矩 假设分布有着无限矩，比如无限方差，在有限的样本中计算得到的矩依然有限，但仅仅因为样本是有限的。一个均值无定义的分布比如柯西分布，在有限样本中总是会呈现出有限均值，并且不同样本集给出的均值会完全不同，图4.11和图4.12显示了随着样本不断增大，矩展现出的“漂移”效应。

图4.11　均值无定义分布（柯西分布）的样本内均值序列。

图4.12　无限方差分布的样本内二阶矩开方值，在每一次跳跃前我们都会看到伪收敛。

4.4.5　评述：为什么我们应该立刻弃用标准差？

标准差的概念迷惑了大量的科研人员，我们应该在平时的研究中弃用标准差，并更换为更有效的平均差。标准差（STD）的概念应当留给数学家、物理学家和统计学家在推导极限定理时使用。在计算机时代，我们已经失去了用标准差进行统计估计的理由，反而是越来越多的社会科学家机械地使用标准差带来了大量问题。

假设有人让你测量过去五天你所在城市气温（某股票的价格或你舅舅的血压）的“每日平均偏差”，相应的数值为（-23，7，-3，20，-1），你会如何做？

你会将每个观察值平方，求和取平均值，再开方吗？还是去掉符号直接求平均值？这两种计算方法完全不同，前者的平均值为15.7，后者为10.8。前者的正式名称为均方根偏差，而后者的正式名称是平均绝对偏差（MAD）。相比较而言，MAD的概念更适用于“真实世界”。实际上，每当获得标准差数据时，人们在决策中还是会把它当成平均差来用。

一切都源于历史的偶然：1893年，伟大的卡尔·皮尔逊将“均方根偏差”赋予了“标准差”的概念，由此大家开始混淆，以为他指的是平均差。这一点很容易证实：新闻媒体每次尝试解释“波动率”的概念时，都会在口头上使用平均差的概念，然后使用标准差的数值结果。

但并非只有媒体会犯这样的错误：我曾经看到美国商务部和美联储的官方文件，以及监管层关于波动率的陈述都有过这种偏误。更糟的是，我和戈尔茨坦发现，大量数据科学家（很多都是博士）在现实生活中依然会犯错。

这都来自上面反直觉的命名方式，基于属性替换的心理学效应，有些人将MAD误认为STD，仅仅因为前者更容易令人想起——这正是骗子和幻想家最熟悉的“林迪效应”。

（1）MAD在样本内更精确，而且比STD的波动更小。因为MAD采用自然权重，而STD以自身为权重，这使得较大偏差的权重提高，从而过度加权尾部事件。

（2）我们经常在公式中使用STD，但在最后应用中又转化为MAD（比如，金融领域的期权定价）。在高斯世界中，STD大约是MAD的1.25倍，也即。但如果采用随机波动率模型，STD一般是MAD的1.6倍。

（3）很多统计现象和统计过程都有“无限方差”（比如，知名的80/20法则），但具备有限甚至性质良好的平均差。只要均值存在，MAD就存在，反之（无限MAD，有限STD）不成立。

（4）遗憾的是，许多经济学家放弃了“无限方差”模型，以为它们也是“无限平均差”模型。自从50年前，伟大的本华·曼德博提出无限方差模型以来，经济学家就被吓坏了。

我们非常遗憾地看到，这么一个小问题导致了如此多的误解：我们的科研工具和直觉理解相去甚远，这为科学研究带来了问题。这里我用罗纳德·费雪爵士的话来收尾：“统计学家要理解自己所应用或所推荐的方法，不应逃避这一责任。”

注意一般情况下，如果随机变量X ₁ ,X ₂ …X _n 相互独立，方差存在线性关系：

但其他统计量很难通过线性变化满足可加性条件。我们可以看到，对于高斯分布对于自由度为3的学生T分布，该值为，等等。

4.4 肥尾、平均差和上升范数

4.4.1 常见误区

4.4.2 指标分析

4.4.3 肥尾效应对STD vs MAD“有效性”的影响