购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

6.6 相关性和未定义方差

下面来看一个矛盾现象:在某些情况中,协方差为无穷大,相关性却为有限值。不过这和第三章讨论PCA时遇到的问题一样——样本误差极大,我们需要极大的数据量才能使两者显现出差异。

问题:为什么在幂律分布类中,肥尾分布的单变量均值(和高阶矩)都为无穷或未定义,但在高维条件下,却可以存在无限(或有限)的协方差和有限的标准差?

以一个定义在(−∞,∞)上的分布为例,假设各阶矩均不存在: 无定义, ,协方差不存在, 无定义。但是n个随机变量的相关性(非中心化)依然在-1到1之间。

由亚指数性质,在x→∞时,我们有 。这里幂律分布类包含在亚指数分布类 之中。

将随机变量按照绝对值排序,使

对所有的

图6.10展示了一种可能的相关性分布。相关性有限并不意味着方差低:这里相关性虽然存在,但因为收敛极慢,噪声很大,其统计意义非常有限。

图6.10 10 3 个样本的相关性分布,双变量T分布存在相关性(尾部指数2/3,相关性3/4),但没什么意义。 3xQfGFV6NZ4t/Jq7mh88xEzxih7+bUfaAOfk0WNjmfMk4tJXf1aqAD+rGbqTvsE3

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开