图3.7 衡量不公平的测度(比如基尼系数)在厚尾条件下需要完全不同的估计方法,我们会在第三部分讨论这个问题。追求科学并不容易。
当移到上述黄色区域(经典统计的舒适区)之外时,会出现如下效应:
效应1 在现实世界中,大数定律即便有效,其奏效速度也会很慢。
读者可能无法想象,仅这一条就否定了绝大多数统计估计方法,如图3.8所示。在第八章我们会进一步讨论,区分统计估计不同类型的分布所需的样本量。
效应2 样本均值大概率不会贴近分布的实际均值,尤其是遇到偏态分布(或单尾分布)时,均值的估计量会持续被小样本效应主导(即被低估或高估)。
这是样本不足问题的另一种体现,没有一个极度厚尾-单尾分布可以用样本均值来估计总体均值,想要直接估计的前提是拥有近乎无限的数据。 比如,一般的幂律分布(符合80/20法则的分布)会有92%的观察值落在真实均值以下。为了让样本均值有意义,我们需要远远超出我们正常所能拥有的数据量(经济学专家从未真正理解这一点,但交易员对此有直观感受)。针对这一问题,我们会在章节3.8继续讨论,并在第十五章“影子均值”中详细论证。此外,在章节3.8中,我们还会进一步介绍隐藏统计量的概念,不仅是均值,用样本来估计总体也会导致方差被低估。
图3.8 大数定律体现了样本均值收敛的速度,而在极端斯坦下收敛速度极慢。这里以高斯分布和尾部指数1.13的帕累托分布为例(帕累托80/20分布),保持上述分布的绝对平均偏差相同并观察收敛效果。该结论适用于所有需要样本统计的领域,比如投资组合理论。
效应3 方差和标准差这样的统计量是不可用的。
即使分布背后的统计量存在,甚至各阶统计量均存在,它们在样本之外也一定会失效,这一点我们会在第四章展开讨论。很多人喜欢用标准差(经常被误认为是平均偏差)作为衡量离散程度的指标,这属于一种看似科学的谬误,因为只有在最理想的情况下,标准差才能勉强地正确估计离散程度。
效应4 贝塔系数、夏普比率和其他惯用的金融统计量均无参考意义。
这是上一条效应的简单推论。 如果依赖这些统计量,我们要么需要更多的数据,要么需要某种尚未被发现的模型。图3.9展示了夏普比率在样本外的糟糕的预测能力——几乎起到完全相反的效果。然而,很多人还是执迷不悟,沉浸在看似科学的分析数字中。
图3.9 横轴代表各个对冲基金在2008年之前的夏普比率,纵轴代表它们在金融危机中损失的标准差。夏普比率不仅对样本之外的表现完全没有预测作用,甚至不能作为一个有效防止破产的指标。感谢拉斐尔·杜阿迪。
实际上,所有经济金融领域的变量和证券回报都是厚尾分布的。我们统计了超过4万只证券的时间序列,没有一只满足薄尾分布,这也是经济金融研究中最大的误区。
理论金融学家有时会得出一些极其不严谨的结论,如“哪怕收益是厚尾分布的,只要分布的前两阶矩存在,均值方差投资组合理论就成立”(这实际上是加入了分布椭圆特性的条件,后面会进一步讨论)。实际上,即使存在方差,我们也不知道其精确性如何。一个随机变量二阶矩的尾部会比该变量本身的尾部更厚,所以,统计量服从极其缓慢的大数定律。而且,随机变量的相关性或协方差也会以厚尾的形式存在(失去椭圆特性),从而使统计估计失效。
在经济学术领域,所有使用协方差矩阵的论文都很可疑。
详情见第四章(单变量分布)和第六章(多变量分布)。
效应5 稳健统计并不稳健,经验估计会超出经验。
以我个人的经历为例,稳健统计的概念如同一个恶作剧,但是绝大多数专家并未意识到它有多么可笑。
首先,稳健统计寻求一种既不想对统计框架进行大改动,又想要处理尾部事件的方法论。这是一种完全错误的稳健概念:如果统计量不随尾部事件发生大幅变化,可能仅仅因为样本包含的尾部信息不足。而且,这种方法对研究期望收益毫无帮助。其次,稳健统计属于“非参估计”,人们一般认为,不引入参数可以让整个分析变得不太依赖于底层分布,但实际上,这样做只会让事情变得更糟糕。
移除样本极值的缩尾法会扭曲期望值,并让信息减少——不过检查一下异常值也好,看看它到底是真实的异常还是“数据错误”(笔误或计算机故障)造成的伪异常。
所谓非参数的“经验分布”完全没有经验性的借鉴意义(而且会在尾部的期望收益上造成误导),至少在金融和风险管理领域是这样的,第十章会进一步讨论。这里可以简单解释如下:如果没有科学的外推方法,从过去的数据中简单估计未来的极值,偏差会很大。
这就像有人想通过修筑堤坝来防止洪水,简单的“经验”分布会基于历史最高水位,也就是说,更高水位的概率为0。但是反过来想,历史最高水位在成为最高水位之前肯定要超越之前的最高水位,因此,经验分布已经被突破。在厚尾分布下,过去极大值和未来期望极大值的差异会远远大于薄尾分布。
效应6 最小二乘线性回归失效(高斯-马尔可夫定理不成立)。
如图3.10所示,最小二乘回归背后的原理是高斯-马尔可夫定理,要求变量满足薄尾分布,这样才能通过所有数据点拟合出唯一的直线。而在肥尾条件下,我们需要远远多于预期的数据来最小化偏差平方和(高斯-马尔可夫定理依然成立,但是现实世界的数据是有限的,而不是无限的,所以其效果近似于不成立),或者因为变量二阶矩不存在,我们可能无法求解。在二阶矩不存在的情况下,如果仅仅最小化平均绝对偏差(MAD),一方面我们会面临数据不足的问题,另一方面我们求得的斜率也可能不唯一。
图3.10 在厚尾条件下,我们可以对同样的样本拟合出完全不同的直线(线性回归所需的高斯-马尔可夫定理不再成立)。左图:常规回归的结果。右图:尝试补偿大偏差得出的回归线——可以看作某种“对冲比率”,补偿了大偏差但是对小偏差数据的误差很大,如果忽视大偏差,结果就是灾难性的。这里的样本并不包含大偏差值,但回归时会通过“影子均值”的方法进行估计。
我们在章节6.7中会进一步讨论,由于厚尾的小样本效应,回归样本内的决定系数(R 2 )远远大于真实值。当随机变量方差无穷大的时候,R 2 应该等于0。但是,因为回归样本量必然有限,R 2 会给出高于0的欺骗性结果。因此,在厚尾条件下,R 2 不仅完全没有意义,还会因为高估时不时产生十足的欺骗作用(就像智商研究一样)。
效应7 极大似然估计对于部分分布参数的估计依然有效(好消息)。
以幂律分布为例,我们可以估计其分布的形状参数和尾部指数(本书用α表示 ),以帮助我们更好地理解分布,然后从分布反向估计均值,其效果会远好于直接用样本均值估计整体期望。
示例 :一个简单帕累托分布(最小值L,尾部指数α, 的期望是 (一个和α相关的函数)。因此,我们可以从这两个参数出发(其中一个已知),通过插入式估计量获得均值。我们可以直观估计α(或者采用低方差的极大似然估计,这里α满足倒伽马分布),然后计算得到均值。这样的均值估计比直接求样本均值要准确得多。
让我们再强调一下上述逻辑:
通过拟合尾部指数α的方法,可以获得数据中没有出现的小概率尾部信息,而且该信息对分布均值有巨大的影响。
这一方法可以推广到基尼系数和其他的不平均估计量上。
因此,在一些情况下,我们可以针对尾部指数构建函数,从而得到更可靠(或者至少没有那么不可靠)的统计量,当然,仅仅是在一些情况下。
接下来,我们要面临一个现实世界中的问题:如果没有靠谱的统计量怎么办?那最好还是在家里待着,我们不能把自己暴露在脆弱性的风险之下。不过,如果可以锁定最大损失,我们就可以做出承担风险的决策。
效应8 经验可证实和可证伪之间的差距远比常规统计能覆盖的范围更大,即不能证明和证明不可行之间的差异变得更大了。(所谓“基于证据”的科学除非经过严格的验证,否则通常是经验外推的,其证据既不充分,也不算科学。)
作者此前和认知语言学家兼科普作家斯蒂芬·平克有过一次争论:从最近的数据变化中得出结论(或归纳出理论)并不可行,除非满足一定的置信度条件,这就需要在厚尾条件下有更多的数据(和缓慢大数定律的逻辑相同)。因此,根据最近一年或十年非自然死亡人数的下降,得出“暴力致死行为有所下降”这样的结论并不科学。科学论断之所以和奇闻逸事不同,是因为它对样本外发生的事情有预测作用,统计意义显著。
这里我再次强调,统计意义不显著的结论并不算真正的科学。不过,说暴力行为在某次观察中上升则可能是一个严谨的科学论断。在薄尾的情况下解读描述性统计量的做法可能是可以接受的(因为显著结论所需的样本量不大),但在厚尾情况下肯定不行,除非包含尾部信息的超大偏差重复出现在样本集中。
效应9 主成分分析(PCA)和因子分析很可能会产生错误的结论。
这一点比较专业,通过主成分分析这样的降维方法,样本不足的问题可以转换为大型随机向量。这是大数定律问题的高维表达。图3.26从PCA数据不足的角度很好地表述了魏格纳效应。用专业的语言表述,就是马尔琴科-帕斯图尔分布无法应用于四阶矩不存在的情况(或是尾部指数超过4的情况)。
图3.11 在厚尾条件下,一犯错误就完了;而在薄尾条件下,犯错误可以成为宝贵的学习机会。资料来源:《你曾有份工作》。(图中文字为:我从犯错中学到了太多东西,以至我想再犯点儿错误。)
效应10 矩估计法(MoM)失效,高阶矩意义不大,甚至可能不存在。
当年获得诺贝尔奖的广义矩估计法也不成立。里面的细节很多,可以先这么理解:如果高阶矩无限大,通过矩来估计分布就行不通,因为每一组样本都会得出一个不同的矩,正如后面所展示的标准普尔500指数四阶矩。
简单来说,厚尾分布的高阶矩会呈爆炸式上升,尤其是在经济领域。
效应11 不存在所谓典型的大偏差。
在考虑出现大偏差的情况下,厚尾变量的条件偏差并不收敛,尤其是在极度厚尾条件下(如幂律尾分布),这一点和我们之前看到的灾难原则类似。在高斯分布中,随机变量变动大于4倍标准差的条件期望约等于4倍标准差。而对幂律分布来说,条件期望会数倍于该值,我们称其为林迪效应,第五章和第十一章会进一步讨论。
效应12 基尼系数不可加。
衡量基尼系数的方法是样本外推法,因此还是无法摆脱上面的问题,也即样本均值会高估或低估真实均值。这里有一个额外的复杂点,基尼系数在厚尾下具备超可加性。随着样本空间的增大,常规的基尼系数无法有效揭示真实的财富集中度。(换句话说,一个大陆,比如欧洲大陆,其收入的不平等程度可能超过其成员国收入不平等程度的加权值。)
不仅是基尼系数,这一结论同样适用于集中度的其他衡量指标,如前1%的人拥有财富总量的x%等。第十三章和第十四章会有专门论述。
效应13 大偏差理论无法应用于厚尾。
在厚尾条件下,大偏差理论完全失效。 大偏差定律在薄尾条件下非常有用(瓦拉丹 [260] ,登博和泽图尼 [59] ,等),但是也仅限于此,我们会在附录C和第七章讨论极限理论时再提及。
效应14 动态对冲永远不可能对冲掉期权的所有风险。
这一条也比较专业,非金融领域的读者可能不感兴趣。金融领域布莱克-斯科尔斯期权定价模型的对冲基础完全建立在动态对冲的可行性和必要性之上,而在第二十章和第二十一章中我们会证明两者都存在问题。有效的动态对冲要求误差呈指数下降,也即统计分布必须超出亚指数类分布。这里我们讨论的实际上是克拉默条件——最终都可以归结为指数矩问题。
本书的作者是一位期权交易员,而对交易员来说,期权并不是由动态对冲的方式定价的——在整个期权交易的历史上都是如此。
效应15 预测频率与预测期望收益有巨大差异。
效应16 在心理学和决策论中,大多数有关“高估尾部概率”和“非理性行为”的结论都来自研究人员对尾部风险的误解。比如,混淆概率和期望收益,误用统计分布,以及忽视极值理论(EVT)。
上面两点在下一章会展开讨论:只考虑频率不考虑期望的错误在薄尾条件下不算太严重,但是在厚尾条件下会有巨大影响,其结果见图3.12和图3.13。
图3.12 心理学研究中的概率校准:x轴是预测者估计的概率,y轴是实际发生的概率。比如某人预测下雨的概率是30%,且实际上有30%的时间会下雨,那么这称为“完美校准”。只有在学术领域,我们才把这种校准放在频率空间,把现实生活中的错误预测作为一个二元事件来考量,这一点在厚尾条件下问题很大。第十一章将详细讨论这一点。
图3.13 在幂律条件下,上图对概率的估计误差会转变成下图的收益误差。这里使用的是帕累托分布(尾部指数α=1.15)。同样,这一点第十一章将详细讨论。
效应17 在厚尾条件下,破产问题的严重性更甚,同时需要考虑遍历性。
相关的讨论比较专业,本章末尾会有解释。
下面我们就一些要点展开讨论。
在《随机漫步的傻瓜》一书中,某人被问,到月底市场更有可能上涨还是下跌?他表示上涨的可能性更大,但后来发现,他在押注市场 下跌 。对不懂概率的人来说,这似乎很矛盾,但是对交易员来说再正常不过了,尤其是在非标准分布的条件下(确实,市场更有可能上涨,但如果下跌会跌得更多)。这个例子表明,人们常常混淆 预测 和风险敞口(预测的结果是二元的,而风险敞口的结果更多元,取决于整个分布的状态)。在这个例子中,一个非常基本的错误是,将 发生概率 理解为单个数字而非分布结果,而在进一步研究之后,我们会发现很多并不明显或不为人知的类似的悖论式问题。简单来说,作者认为,将“概率”作为最终标的,甚至作为决策的“基础”来讨论并不严谨。
在现实世界中,一个人所获得的不是概率,而是直接的财富(或生存权利等)。这时,分布的尾部越肥,就越需要关心收益空间——俗话说得好:“收益远胜于概率。”如果犯错的成本够低,决策者可以经常犯错,只要收益是凸性的(也即当他正确的时候会获得很大的收益)。反过来说,决策者可以在预测的准确率达到99.99%的情况下破产(实际上,破产的可能性说不定更大:在2008—2009年金融危机期间,破产的基金恰恰是那些之前业绩无可挑剔的基金 )。正如《 动态对冲 》 [225] 一书所讨论的那样(对非量化金融领域的读者来说,可能专业性略强),这是相同行权价的香草期权和二元期权之间的区别。违背直觉的是,肥尾效应 降低 了二元期权的价值,同时提高了香草期权的价值。正如作者的格言所说:“我从未见过有钱的预言家。”加肥尾部会导致高于1个标准差的事件的概率下降,但对应的后果会加重(就对矩的贡献而言,比如对平均值或其他指标的影响),我们会在章节4.3.1中具体展开。
图3.12展示了这个问题的严重程度。
概率预测误差(“校准”)与真实世界中的损益变化(或真实收益)属于完全不同的概率类别。
“校准”是一种衡量预测准确程度的方法,聚焦于概率空间——介于0和1之间。无论所预测的随机变量是否为厚尾分布,校准对应的所有标准测度都是薄尾的(而且因为有界,必然是超薄尾的)。另外,现实世界中的收益可能是厚尾的,因此这种“校准”的分布将遵循随机变量本身的特性。
我们会在第十一章给出完整的推导和证明。
下面我们来讨论大数定律,作为统计学的基础,大数定律告诉我们,当增加观测值时,样本均值会逐渐变得稳定,收敛速率约为 。图3.8显示,在肥尾分布下,均值要趋于稳定需要更多的观察值。
“等价”并不简单。
为了考量平均斯坦和极端斯坦之间的差异,我们以飞机失事为例。假设100~400人在事件中丧生(令人痛心),也即一个独立的负面事件,对预测和风险管理来说,我们会尽可能最小化此类风险,使其可以忽略不计。
接下来,我们考虑一种特殊的飞机失事事件,该事件会杀死所有乘坐飞机的人,包括所有过去乘坐过飞机的人。那么这还是同一类型的事件吗?后者属于极端斯坦,而对于这样的事件,我们不考虑概率,而是关注其影响。
·对于第一种类型的事件,管理者主要考虑降低其发生概率——事件的发生频率。这里我们会数发生的次数,并尝试减少。
·对于第二种类型的事件,主要在于降低事件发生时造成的影响。这时我们不计算概率,而是衡量其影响。
如果觉得上述实验有些奇怪,你可以考虑一下1982年美国央行在危机中失去了之前历史上赚到的所有钱,存贷行业(现在已经不复存在)也出现过同样的事情,银行系统在2008—2009年赔掉了之前所有的利润。我们会经常看到,某人在单次市场事件中赔掉之前的所有积蓄。而同样的事情会在很多行业发生,如汽车业和航空业。
上面的银行仅仅和钱有关,对于战争,我们就无法只关注频率而不考虑其量级了,正如科普作家斯蒂芬·平克所说 [194] ,第十六章会讨论这一点。这里还不考虑本节末尾提到的破产问题(和非遍历性)。更严格地说,如果想让原始的概率值有意义,我们就要让一系列事件满足非亚指数的克拉默条件。上述类比是本书作者和极富洞察力的拉斯·罗伯特在一次经济学讨论的播客中提出的。
在统计现象中,最知名的是帕累托分布(即80/20法则),如20%的意大利人拥有80%的土地。表3.1显示,在高斯分布下需要取30个观测值才能使均值达到稳定的区间,而在帕累托分布下需要10 11 个观测值才能使误差达到同样的水平(假设均值存在)。
尽管上述计算并不复杂,却很少有人从这个角度去思考。在估计厚尾分布均值的时候,我们并不能表明其稳定性。还有其他的办法可以做到这一点,但肯定不是通过对样本的观察。
图3.14 人生的核心是收益而非概率,在极端斯坦下,两者的差异尤其明显。[图中为什么是“Gabish”而不是“capisce”?Gabish是Siculo-Galabrez(Calabrese)的发音,“p”过去听起来像“b”,而“g”听起来像闪米特语的kof,布匿语的K。就像capicoli是“gabagool”。]
表3.1 相应的n α ,也即多少观测值可以使误差落到等价α稳定分布的均值附近(第八章会进一步讨论该测度)。高斯分布的情况对应α=2,对于尾部等同于80/20法则的分布,我们至少需要比高斯分布多10 11 量级的数据