由观测数据建立图模型,首先要检验顶点表示的变量(或序列)之间的各种相依联系.作为计量经济学、时间序列分析和统计学的重要概念之一,独立性检验在各领域得到大量研究.在时间序列中,Brock等 [68] 提出了BDS检验方法,用于检验时间序列的独立同分布假设.Brock等 [69] 又把BDS检验方法推广到用于检验时间序列中估计的残差的独立性.但BDS检验方法不能有效地确定模型的具体滞后阶数.另一类非参数检验方法是关于固定阶数的时间序列独立性检验,例如,Skaug等 [70] 直接比较了联合分布函数和边缘分布函数的乘积;Pinkse [71] 等比较了联合概率密度函数和边缘概率密度函数的乘积;Pinkse [72] 基于特征函数提出了固定阶数的非参数检验方法.其他序列独立性的非参数检验方法有:Delgado等 [73] 提出的经验分布函数方法,Hong [74] 提出的广义谱检验的频域方法等.
上述非参数检验方法涉及各种函数的估计,对计算量要求较大.近年来,信息论中的熵度量方法由于能够捕捉时间序列中的相依联系,并且不需要对数据产生过程进行严格的参数假设,因而成为时间序列独立性检验的研究热点.熵作为时间序列中的相依联系度量始于 Joe [75,76] 用光滑的非参数熵度量独立同分布随机向量的多维相依联系.Robinson [77] 利用修正的熵度量发展了时间序列中的相依联系检验.进而,Granger等 [78] 提出了非参数熵统计量,用于检验时间序列中的滞后相依联系.熵度量的理论研究也得到了发展.Bernhard 等 [79] 证明了基于互信息的相依联系检验方法的重要性质.Urbach [80] 和Granger等 [81] 研究了互信息、熵和相依联系之间的关系.Hong等 [82] 研究了检验时间序列独立性的熵统计量的渐近分布理论.最近,Matilla García等 [83] 提出了基于置换熵的非参数独立性检验方法.本节介绍基于Shnnon熵定义的互信息和条件互信息 [84] 、基于广义熵定义的广义互信息和广义条件互信息、基于线性熵的线性互信息和线性条件互信息等基本概念 [85] .
设连续型随机变量 X ,其概率密度函数为 f X ( x ),Shannon定义连续型随机变量的熵为
Shannon熵的概念可以推广到多个连续型随机变量的情况.以两个随机变量 X 和 Y 的情况为例,设其概率密度函数分别为 f X ( x )和 f Y ( y ),联合概率密度函数为 f X , Y ( x , y ),条件概率密度函数分别为 f X | Y ( x | y )和 f Y | X ( y | x ),则 X 和 Y 的联合熵定义为
联合熵是对两个随机变量不确定性的度量.
随机变量 X 和 Y 的条件熵 H ( X | Y )定义为
条件熵是在已知随机变量 Y 的情况下,对随机变量 X 不确定性的度量.
容易推出,联合熵、无条件熵和条件熵存在下列关系
随机变量 X 和 Y 的互信息为
随机变量的互信息表示了随机变量之间相互提供的信息量,故有
互信息还可以表示随机变量之间的统计依存程度.
由熵、联合熵、条件熵的定义,即式(1-14)、式(1-15)和式(1-16),可以推出
当随机变量 X 和 Y 相互独立时,有 f X , Y ( x , y )= f X ( x ) f Y ( y ),于是有
和
为简单具体起见,考虑随机变量 X 和二维随机向量( Y , Z )之间的互信息.设这三个随机变量的概率密度函数分别为 f X ( x )、 f Y ( y )和 f Z ( z ),其联合概率密度函数为 f X , Y , Z ( x , y , z ).仿照两个随机变量之间的互信息的定义,可以定义 X 和( Y , Z )之间的互信息为
和
联合互信息 I ( X ; Y , Z )表示随机变量 X 和二维随机向量( Y , Z )之间相互可能提供的信息量,即 I ( X ; Y , Z )是表示 X 和( Y , Z )之间统计依存程度的度量.
在已知随机变量 Z 的条件下,随机变量 X 和 Y 之间的条件互信息 I ( X ; Y | Z )定义为
由式(1-25)可以得到下列关系式
可以证明,条件互信息是非负的,即 I ( X ; Y | Z )≥0.
利用条件互信息把联合互信息做如下展开:
式(1-27)的含义是,二维随机向量( Y , Z )所提供的关于随机变量 X 的信息量等于随机变量 Y 所提供的关于 X 的信息量加上在已知 Y 的条件下随机变量 Z 所提供的关于 X 的信息量.
在给定随机变量 Z 的条件下,当随机变量 X 和 Y 条件独立时,有
于是有
利用如下定义的 Renyi 熵可以得到一个更广义的度量.设随机变量 X ,其概率密度函数为 f X ( x ),则 X 的 q 阶Renyi熵定义为
对于二维随机向量( X , Y ),其联合概率密度函数为 f X , Y ( x , y ),则联合 q 阶Renyi熵定义为
当 q →1时,Renyi熵就是Shannon熵.
随机变量 X 和 Y 的 q 阶互信息定义为
q 阶条件互信息用于度量给定 Z 中包含的关于 X 的信息的条件下, Y 中包含的关于 X 的信息
设 X =( X 1 , X 2 , … , X n )是均值向量为 0,协方差矩阵为 Σ 的 n 维高斯分布向量,其概率密度函数为
式中, W = Σ -1 , 为矩阵 W 的行列式.
结合式(1-33)和式(1-15),定义线性Shannon熵为
定义 q 阶广义线性熵 为
利用 可得
随机变量 X 和 Y 的 q 阶线性互信息 I l ( X ; Y )定义为
在已知随机变量 Z 的条件下,随机变量 X 和 Y 之间的 q 阶线性条件互信息 I l ( X ; Y | Z )定义为
式中, Σ XYZ 、 Σ XZ 、 Σ YZ 和 Σ Z 分别表示( X , Y , Z )、( X , Z )、( Y , Z )和 Z 的协方差矩阵或方差.
线性互信息和线性条件互信息与阶数 q 无关,可记为 I l ( X ; Y | Z ),但式(1-34)和式(1-36)的线性熵是 q 的函数.根据定义,线性熵、线性互信息和线性条件互信息只能度量随机变量之间的线性相关关系.