下面来看一个矛盾现象:在某些情况中,协方差为无穷大,相关性却为有限值。不过这和第三章讨论PCA时遇到的问题一样——样本误差极大,我们需要极大的数据量才能使两者显现出差异。
问题:为什么在幂律分布类中,肥尾分布的单变量均值(和高阶矩)都为无穷或未定义,但在高维条件下,却可以存在无限(或有限)的协方差和有限的标准差?
以一个定义在(−∞,∞)上的分布为例,假设各阶矩均不存在: 无定义, ,协方差不存在, 无定义。但是n个随机变量的相关性(非中心化)依然在-1到1之间。
由亚指数性质,在x→∞时,我们有 。这里幂律分布类包含在亚指数分布类 之中。
将随机变量按照绝对值排序,使
令 对所有的
图6.10展示了一种可能的相关性分布。相关性有限并不意味着方差低:这里相关性虽然存在,但因为收敛极慢,噪声很大,其统计意义非常有限。
图6.10 10 3 个样本的相关性分布,双变量T分布存在相关性(尾部指数2/3,相关性3/4),但没什么意义。