购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.7 幂律入门(几乎没有数学)

接下来我们讨论一下80/20法则背后的原理,它被简单地定义为:假设有随机变量X,在X产生的值x足够大的时候,出现超过2x的概率除以超过x的概率“不显著异于”出现超过4x的概率除以超过2x的概率,以此类推。这一性质被称为“可扩展性”。〔这里引入一些最基础的数学:假设X是属于分布右尾具备“幂律”特性的随机变量: 这里 是缓变函数,定义为对所有的 ,我们可以转换该式使其适用于负数区间。〕

假设我们有一个帕累托(或帕累托风格的)分布,拥有1 600万美元的人和拥有800万美元的人的比例与拥有200万美元的人和拥有100万美元的人的比例相等,满足常数条件不等式。在不存在特征尺度的情况下,我们很容易理解该分布,哪怕这个分布不存在均值和标准差,它也比标准的统计分布更容易被我们理解。但正因为分布的均值不存在,我们不得不深挖统计教材,对其进行更扎实、更严谨的研究,哪怕用看起来并不那么数学的方法。

表3.2是幂律的一个例子。

表3.2 幂律的一个例子

帕累托分布不存在高阶矩:这些矩要么不存在,要么在统计上变得越来越不稳定。下面我们看一个经济学和计量经济学的实证问题。2009年我选取了55年的金融数据,并尝试观察有多少峰度(四阶矩的函数)来自最大单一观测值——如表3.3所示。对高斯分布来说,同样的时间长度下最大贡献应当在0.008±0.002 8之间。而对标准普尔500指数来说,这个值是79%。这也说明,我们对证券回报率的峰度一无所知。它的样本误差非常大,或者分布的实际峰度可能不存在,因此测量高度依赖于样本。如果对四阶矩一无所知,那么我们对二阶矩的稳定性也一无所知。这意味着,即便方差存在,我们所处的分布也不允许我们处理方差。科学研究很困难,量化金融同样不易。

对于白银,过去46年来94%的峰度是由单日贡献的,因此,我们在金融数据上根本无法使用标准统计模型。GARCH波动率模型不成立,因为平方项的方差类似于四阶矩。但即便不了解方差,我们也可以很轻松地处理帕累托分布。虽然帕累托分布给出的信息更少,但在增加变量或变量无限时会更加严谨。

表3.3中的金融数据直接揭露了现有大学教材存在的问题,很多采用方差的计量经济学模型都被忽略了。这也解释了为什么经济学家无法预测未来——他们采用了错误的方法并构建了错误的置信区间,他们的理论在样本内成立,但在样本外会失效——因为样本是有限的,样本的矩也是有限的。如果实际分布的方差(或峰度)是无限的,我们在有限的样本内就永远不会得到无限值。

主成分分析(PCA)(见图3.26)是一种对较大数据降维的方法,在薄尾分布中非常有效(至少有时有效)。在数据量不足的时候,其结构并不那么可靠,当我们增加数据量的时候(几个变量),其结构开始变得扁平(在尤金·维格纳之后被称为随机变量的“维格纳效应”,这里不要把它与维格纳关于辐射下原子错位的发现搞混了)。在我们的模拟实验中,数据之间的相关性为0,也即不存在相关结构,各个主成分应该完全相等(当数据量变大时应该趋近),但是在小样本效应的持续作用下,排序后的主成分还是呈现出下降的特征。对厚尾分布来说(下半部分),我们需要更多的数据来排除伪相关性,因此,降维法并不适用于厚尾。 alEGsGxfdkIYGj/PQWVE62UccFEfC5SXrjmf9rYwPw81E5SRpj06v86tH+H9SJfe

点击中间区域
呼出菜单
上一章
目录
下一章
×