重塑基础思维，应对复杂世界（全11册）最新章节_纳西姆·尼古拉斯·塔勒布著

3.7　幂律入门（几乎没有数学）

接下来我们讨论一下80/20法则背后的原理，它被简单地定义为：假设有随机变量X，在X产生的值x足够大的时候，出现超过2x的概率除以超过x的概率“不显著异于”出现超过4x的概率除以超过2x的概率，以此类推。这一性质被称为“可扩展性”。〔这里引入一些最基础的数学：假设X是属于分布右尾具备“幂律”特性的随机变量：这里是缓变函数，定义为对所有的，我们可以转换该式使其适用于负数区间。〕

假设我们有一个帕累托（或帕累托风格的）分布，拥有1 600万美元的人和拥有800万美元的人的比例与拥有200万美元的人和拥有100万美元的人的比例相等，满足常数条件不等式。在不存在特征尺度的情况下，我们很容易理解该分布，哪怕这个分布不存在均值和标准差，它也比标准的统计分布更容易被我们理解。但正因为分布的均值不存在，我们不得不深挖统计教材，对其进行更扎实、更严谨的研究，哪怕用看起来并不那么数学的方法。

表3.2是幂律的一个例子。

表3.2　幂律的一个例子

帕累托分布不存在高阶矩：这些矩要么不存在，要么在统计上变得越来越不稳定。下面我们看一个经济学和计量经济学的实证问题。2009年我选取了55年的金融数据，并尝试观察有多少峰度（四阶矩的函数）来自最大单一观测值——如表3.3所示。对高斯分布来说，同样的时间长度下最大贡献应当在0.008±0.002 8之间。而对标准普尔500指数来说，这个值是79%。这也说明，我们对证券回报率的峰度一无所知。它的样本误差非常大，或者分布的实际峰度可能不存在，因此测量高度依赖于样本。如果对四阶矩一无所知，那么我们对二阶矩的稳定性也一无所知。这意味着，即便方差存在，我们所处的分布也不允许我们处理方差。科学研究很困难，量化金融同样不易。

对于白银，过去46年来94%的峰度是由单日贡献的，因此，我们在金融数据上根本无法使用标准统计模型。GARCH波动率模型不成立，因为平方项的方差类似于四阶矩。但即便不了解方差，我们也可以很轻松地处理帕累托分布。虽然帕累托分布给出的信息更少，但在增加变量或变量无限时会更加严谨。

表3.3中的金融数据直接揭露了现有大学教材存在的问题，很多采用方差的计量经济学模型都被忽略了。这也解释了为什么经济学家无法预测未来——他们采用了错误的方法并构建了错误的置信区间，他们的理论在样本内成立，但在样本外会失效——因为样本是有限的，样本的矩也是有限的。如果实际分布的方差（或峰度）是无限的，我们在有限的样本内就永远不会得到无限值。

主成分分析（PCA）（见图3.26）是一种对较大数据降维的方法，在薄尾分布中非常有效（至少有时有效）。在数据量不足的时候，其结构并不那么可靠，当我们增加数据量的时候（几个变量），其结构开始变得扁平（在尤金·维格纳之后被称为随机变量的“维格纳效应”，这里不要把它与维格纳关于辐射下原子错位的发现搞混了）。在我们的模拟实验中，数据之间的相关性为0，也即不存在相关结构，各个主成分应该完全相等（当数据量变大时应该趋近），但是在小样本效应的持续作用下，排序后的主成分还是呈现出下降的特征。对厚尾分布来说（下半部分），我们需要更多的数据来排除伪相关性，因此，降维法并不适用于厚尾。

3.7 幂律入门（几乎没有数学）

3.7　幂律入门（几乎没有数学）