接下来,我们将讨论标准差的滥用及存在的问题。
让我们先从标准差和方差开始,由此一窥高阶矩的性质。那么,什么是标准差?我们对肥尾的误解似乎也污染了我们对标准差的理解。
标准差 (假设均值和中位数为0)和平均差 的差异在肥尾条件下会加大,如图4.5所示。该图为我们提供了对两者的基础认知。
图4.5 比较K+x 2 和K+|x|的行为。在随机变量x取值较大时,两个加权函数的差别会越发显著,由此也解释了两者(以及更一般化的高阶矩)在肥尾条件下的差异。
本书作者和丹·戈尔茨坦 [113] 曾向金融工程领域的毕业生提过一个问题,他们是每天和风险/标准差打交道的人。
某只股票(或基金)的平均回报为0%,价格每天平均移动1%(绝对值),也即上行时平均涨1%,下行时平均跌1%。当然不是刚好1%,有时候是0.6%,有时候是1.45%,等等,整体均值为1%。
假设我们生活在高斯分布的世界中,收益率(或每日百分比变动)可以用正态分布建模表示,假定一年有256个交易日,那么收益率的标准差(百分比变化,也即金融领域中的波动率σ)是多少?
日收益率的标准差是多少?
年化收益率的标准差又是多少?
读者可以看到,该问题描述的实际上是平均差,而我们得到的答案一般都是错误的。大家一般会认为,日收益率的标准差为1%,但是平均变动偏差为1%的高斯随机变量,其标准差要更高些,约为1.25%。如果以股票市场的实际经验分布来看,标准差约为1.7%。对于年化标准差大家一般会说是16%,这大约是真实值的80%。将日标准差乘以 进行年化调整没有问题,这主要取决于日收益率是否正确。
因此,大家会在直观上把标准差(STD)想成平均差(MAD)。当这些金融从业者每天讨论波动率和标准差的概念时,他们实际上用平均差对应标准差,采用的是错误的测度,这也会导致实际数值被低估20%~40%。而在一些极端市场中,低估程度甚至可以达到90%。哪怕有人直接指出两者存在差异,他们也无法立刻意识到错误,但如果我们继续问标准差的公式,他们又能给出正确的表达式:平均平方偏差的开方。有些人还会感到困惑,因为他们没有听过平均差的概念。
为什么这一点很重要?因为这意味着决策者每天在来来回回讨论“波动率”,却不知道其真实含义。如果去看一些相关的新闻,有些媒体人在解释波动率指数“VIX”的时候也会犯同样的错误。甚至连商务部的官方网站都错误地定义了波动率。
此外,由詹森不等式,MAD小于STD,人们认知中的波动被系统性地低估了。
两者的比值是如何上升的 对于高斯分布,该比值约为1.25,一旦存在肥尾,比值就会逐渐上升。
示例: 可以观察一个极度肥尾分布,n=10 6 ,除了一个观测值为10 6 ,其余所有值均为-1。
其平均差MAD(X)=2,而标准差STD(X)=1 000,标准差/平均差为500。
薄尾分布的比值 考虑比值h作为一般分析指标:
为期望操作符(在所需的统计测度下,X是中心化变量, 该比值随着肥尾程度的加重而上升。(最一般的情况为 假定分布n阶及以下的矩均存在,n=2是其中的特例。 )
我们可以简单地将X p 视为对X进行X p−1 加权的操作符,在X较大时其权重较高,在X较小时其权重较低。
该效应源自不同函数的凸性差异,|X|偏线性,在除中心区域以外的地方不存在凸性效应。
平均差vs标准差,定量探究 为什么统计学选择了标准差而非平均差?虽然文献中没有给出过量化推导,但我们可以参见休伯 [131] 阐释的历史缘由:
1920年,爱丁顿和费雪就dn(平均差)和Sn(标准差)之间的相对优劣有过一次争论。费雪指出,对于正态分布的观测,Sn比dn要有效12%,而这似乎决定了后来人们的习惯(我的猜想)。
那么我们重新推导一下费雪所说的概念。
令n为求和数量:
假如我们知道样本内X i 服从归一化的高斯分布(均值为0,标准差为1)。
相对标准偏差误差x 2 的特征函数Ψ 1 (t)可以表示为:Ψ 1 (t)= 令平方偏差z=x 2 ,n变量求和的密度函数f满足:
现在令 对应自由度为n的卡方分布。积分后可以得到方差 我们有
相对平均偏差的误差 |x|的特征函数是折叠正态分布,下面我们进行推导:
最终,高斯分布的渐进相对效率为:
这就意味着,在他们的语境中, 数据符合高斯分布 的前提下,标准差比平均差要“有效”12.5%(可参考图4.6),这些家伙接受了这个论点。但只要把条件稍稍放松,上述比值就不再成立。后面会解释为什么正态分布在绝大多数情况下都不适用,现在先让我们看看STD有多脆弱。
假设一个标准波动率混合模型,其偶尔跳跃的概率为p。我们在下列高斯分布中变换(保持均值为0):
可以通过简单的蒙特卡罗模拟来实现。令p=0.01和n=1 000,图4.8展示了a=2时带来的问题,只要存在一个异常值,MAD就会立刻比STD更“有效”。而5倍标准差的小“异常”会使MAD有效5倍。
图4.7 哈拉尔德·克拉默,提出了克拉默条件和破产问题。
图4.9 方差有限幂律分布的平均差(蓝色)vs标准差(黄色)。结果和预期一致(平均差的分布更薄尾),同时标准差的方差为无穷大,因为对于尾部指数α的帕累托分布,其平方分布的尾部指数为 ,在本例中,标准差比平均差要高5倍。
图4.10 对于高斯分布,平均差和标准差之间存在微小的差异(调整两者均值以方便比较)。
对于所有的 下面的不等式均成立:
其中权重ω i 为正值且和为1(注意,我们为满足三角不等关系,避开了p<1)。
证明 对于正值p和q的证明如下。定义下列函数 幂律函数f(x)的二阶导数如下:
在f的定义域上严格为正,因为q>p且f为凸函数,由詹森不等式: 然后对两边同时乘方1/q(增函数,因为1/q为正),就可以得到
我们研究肥尾效应,非常关键的一点在于,在保持低阶范数不变时,离散化分布会使高阶范数上升。比如,以简单的X={1,1}分布为例, 在保持 不变的情况下扰动使 可以得到如下高阶范数:
如果增加离散程度,使 范数会进一步升高:
可以看到,如果除去限制条件或允许存在负值,高阶矩会出现爆炸式增长。
对于矩无穷大的幂律分布,我们可以得到一条有用的性质:
高斯分布示例 为不失一般性,假设有x~N(0,σ)的高斯分布(均值为0), 是X的期望操作符,
这里Γ(z)是欧拉伽马函数; 奇数矩的比值为0,偶数矩:
对于四阶矩,该比值为
对于尾部指数α=3的幂律分布,比如学生T分布来说,
在幂律分布的矩为“无穷大”的时候,我们会再讨论肥尾的定义和其他的统计量。因此,上述矩对平均差的比值分析只适用于样本内,并不适用于样本外。
帕累托分布示例 对于最小值和尺度均为L的标准帕累托分布, 标准差为 如果以均值为中心,我们有:
“无限”矩 假设分布有着无限矩,比如无限方差,在有限的样本中计算得到的矩依然有限,但仅仅因为样本是有限的。一个均值无定义的分布比如柯西分布,在有限样本中总是会呈现出有限均值,并且不同样本集给出的均值会完全不同,图4.11和图4.12显示了随着样本不断增大,矩展现出的“漂移”效应。
图4.11 均值无定义分布(柯西分布)的样本内均值序列。
图4.12 无限方差分布的样本内二阶矩开方值,在每一次跳跃前我们都会看到伪收敛。
标准差的概念迷惑了大量的科研人员,我们应该在平时的研究中弃用标准差,并更换为更有效的平均差。标准差(STD)的概念应当留给数学家、物理学家和统计学家在推导极限定理时使用。在计算机时代,我们已经失去了用标准差进行统计估计的理由,反而是越来越多的社会科学家机械地使用标准差带来了大量问题。
假设有人让你测量过去五天你所在城市气温(某股票的价格或你舅舅的血压)的“每日平均偏差”,相应的数值为(-23,7,-3,20,-1),你会如何做?
你会将每个观察值平方,求和取平均值,再开方吗?还是去掉符号直接求平均值?这两种计算方法完全不同,前者的平均值为15.7,后者为10.8。前者的正式名称为均方根偏差,而后者的正式名称是平均绝对偏差(MAD)。相比较而言,MAD的概念更适用于“真实世界”。实际上,每当获得标准差数据时,人们在决策中还是会把它当成平均差来用。
一切都源于历史的偶然:1893年,伟大的卡尔·皮尔逊将“均方根偏差”赋予了“标准差”的概念,由此大家开始混淆,以为他指的是平均差。这一点很容易证实:新闻媒体每次尝试解释“波动率”的概念时,都会在口头上使用平均差的概念,然后使用标准差的数值结果。
但并非只有媒体会犯这样的错误:我曾经看到美国商务部和美联储的官方文件,以及监管层关于波动率的陈述都有过这种偏误。更糟的是,我和戈尔茨坦发现,大量数据科学家(很多都是博士)在现实生活中依然会犯错。
这都来自上面反直觉的命名方式,基于属性替换的心理学效应,有些人将MAD误认为STD,仅仅因为前者更容易令人想起——这正是骗子和幻想家最熟悉的“林迪效应”。
(1)MAD在样本内更精确,而且比STD的波动更小。因为MAD采用自然权重,而STD以自身为权重,这使得较大偏差的权重提高,从而过度加权尾部事件。
(2)我们经常在公式中使用STD,但在最后应用中又转化为MAD(比如,金融领域的期权定价)。在高斯世界中,STD大约是MAD的1.25倍,也即 。但如果采用随机波动率模型,STD一般是MAD的1.6倍。
(3)很多统计现象和统计过程都有“无限方差”(比如,知名的80/20法则),但具备有限甚至性质良好的平均差。只要均值存在,MAD就存在,反之(无限MAD,有限STD)不成立。
(4)遗憾的是,许多经济学家放弃了“无限方差”模型,以为它们也是“无限平均差”模型。自从50年前,伟大的本华·曼德博提出无限方差模型以来,经济学家就被吓坏了。
我们非常遗憾地看到,这么一个小问题导致了如此多的误解:我们的科研工具和直觉理解相去甚远,这为科学研究带来了问题。这里我用罗纳德·费雪爵士的话来收尾:“统计学家要理解自己所应用或所推荐的方法,不应逃避这一责任。”
注意 一般情况下,如果随机变量X 1 ,X 2 …X n 相互独立,方差存在线性关系:
但其他统计量很难通过线性变化满足可加性条件。 我们可以看到,对于高斯分布 对于自由度为3的学生T分布,该值为 ,等等。