要建立观测数据的图模型,其中一个重要的步骤就是检验图中的边所表示的独立性.要利用时间序列图模型对数据进行分析,需要先建立当前变量 X t 对滞后变量 X t -1 , X t -2 ,…, X t-p , ε t -1 , ε t -2 ,…, ε t-q 的回归模型.因此在时间序列分析中,变量的选择问题就是如何选择合适的滞后变量以引入模型.
基于 Shannon 熵构造的用于度量时间序列相依联系的互信息统计量需要对概率密度函数进行估计,计算过程比较烦琐.Gao等 [90] 考虑基于2阶Renyi熵构造统计量,用于检验非线性时间序列的相依联系,可以用关联积分进行估计.由定义式(1-29)可得, H 2 ( X )存在的条件是:概率密度函数 f X ( x )在概率空间上是平方可积的,因此本书涉及的基于信息论方法的检验均假设出现的概率密度函数都是平方可积的,并且假设时间序列都是严平稳的,即任意有限维联合分布函数不随时间平移而改变.
首先给出广义条件互信息统计量的定义.不失一般性,考虑三个随机变量 X 、 Y 和 Z 之间的联系,以 q 阶条件互信息 I q ( X ; Y | Z )为例研究广义条件互信息度量的性质和估计.作为 I q ( X ; Y | Z )的特殊情形,容易推出,这些性质对于互信息 I ( X ; Y )也成立.
定理2.1 式(1-25)定义的条件互信息
满足下面性质:
当且仅当在给定 Z 的条件下随机变量 X 和 Y 是条件独立的.
证明 Kullback-Leibler信息偏差
具有性质 I ( f 1 ; f 2 )=0,当且仅当 f 1 = f 2 .
取 f 1 = f X , Y , Z ( x , y , z ), f 2 = f X | Z ( x | z ) f Y | Z ( y | z ) f Z ( z ),即可得到定理的结果. 证毕 .
定理2.2 q 阶条件互信息 I q ( X ; Y | Z )在连续可导的一一映射下是不变的.
证明 假设一一变换 h 1 、 h 2 和 h 3 连续可导.令 X * = h 1 ( X ), Y * = h 2 ( Y ), Z * = h 3 ( Z ),用 g 、 g 13 、 g 23 和 g 3 分别表示( X * , Y * , Z * )的联合概率密度函数、( X * , Z * )的边缘概率密度函数、( Y * , Z * )的边缘概率密度函数和 Z * 的概率密度函数,则
证毕 .
由Whittaker [18] 的命题6.4.6和推论5.8.2,可以得到下面的定理.
定理 2.3 设 k 维正态分布随机向量 X =( X 1 , X 2 ,…, X k )的均值向量为 μ ,协方差矩阵为 Σ .令 ,其中, w ii 、 w jj 和 w ij 是矩阵 W 中的元素,则
证明 不失一般性, X i 和 X j 分别取为 X 1 和 X 2 ,定义 X c = X \{ X 1 , X 2 }, Σ c 是 X c 的协方差矩阵.在正态分布情形下,由式(1-38)的定义可知,在给定 X c 的条件下, X 1 和 X 2 的线性条件互信息为
式中, Σ -11 是( X 2 , X c )的协方差矩阵,即从 Σ 中去掉第1行和第1列元素后的矩阵.
将协方差矩阵 Σ 分解为
式中, Σ i c 是( X 1 , X 2 , X c )( i =1,2)的协方差矩阵.
由式(2-4)得
因此
由式(2-6)、式(2-7)和式(2-8)可得
由 W 是 Σ 的逆矩阵可得
最后把式(2-9)和式(2-10)代入式(2-3),得
证毕 .
由定理2.1可知, q =1阶条件互信息 I ( X ; Y | Z )是条件独立性的一个无界的度量,这里定义互信息的一个变换
同理,定义条件互信息统计量的一个变换
以下推导 G ( X , Y )和 T ( X ; Y | Z )的估计.
首先看随机向量关联积分的估计. m 维随机向量 X =( X 1 , X 2 ,…, X m )的2阶关联积分为
式中, I (·) 表示取值为0或1的示性函数, ,参数 ε 为尺度参数.
定义式(2-14)即示性函数 I (·) 的期望,可以直接由 U 统计量进行估计.设得到 X 的 n 个观测样本,记为 x (1) , x (2) ,…, x ( n ) ,则
接下来用关联积分估计随机变量的条件互信息.由定义式(1-29)可得,随机变量 X 的 q =2阶Renyi熵为
随机变量 X 的2阶Renyi熵和关联积分 C ( X ; ε )有如下联系(Grassberger [91] ):
对于基于 2 阶互信息构造的统计量的估计,为方便起见,这里仍用 和 分别表示互信息和条件互信息的估计如下:
注:选择 q =2阶条件互信息的优点是,对观测值计算Renyi熵比较简单,可以用关联积分来进行计算.但问题在于, I 2 ( X ; Y | Z )可能是负的,且 I 2 ( X ; Y | Z )=0不一定意味着在给定 Z 的条件下 X 和 Y 是条件独立的.Pompe [92] 提出,把数据变换为具有均匀分布的数据,保证广义互信息是非负的,并且仅在两个随机变量独立时为0.但这个方法对于广义条件互信息并不成立.实际上, I 2 ( X ; Y | Z )的行为和 I 1 ( X ; Y | Z )的行为非常类似.数值模拟结果也验证了在检验条件独立性时,基于 I 2 ( X ; Y | Z )构造的统计量和基于 I 1 ( X ; Y | Z )构造的统计量具有相同的结果.
设得到严平稳时间序列{ X t , t ∈ Z }的 n 个观测值 ,定义 M 维延迟向量 ,其中, M 为事先确定的正整数.
令 表示 中由除 X t-j 外所有的其他变量组成的向量.检验在给定 的条件下, X t 和 X t-j 的条件独立性的原假设和备择假设如下:
H 0 :在给定 的条件下, X t 和 X t-j 是条件独立的.
H 1 :在给定 的条件下, X t 和 X t-j 是条件相依的.
由定理2.1可知, X t 和 X t-j 之间条件独立性的度量为
利用 T j ( X t ; X t-j | )作为条件独立性度量可以捕捉在给定时间序列中间值条件下的相依联系,同时提供时间序列相依联系的滞后阶数信息.
用2阶关联积分估计 T j ( X t ; X t-j | ),由式(2-19),在给定 的条件下, X t 和 X t-j 之间的2阶条件互信息为
令 C j ( ε )、 分别表示关联积分 、 的简写形式,则 T j 的估计 为
由 U 统计量的相合性,可以得到 的相合性.
定理2.4 估计 是 T j 的相合估计,即当 n →∞时,有 ,其中 表示依概率收敛.
证明 由 U 统计量的相合性,有 .因此 和 分别是 和 C j ( ε )的相合估计.由文献[93]中的定理1.5和式(2-21)可得定理结果. 证毕 .
的渐近正态性证明需要用到一个引理,即文献[94]中的定理1.
引理 2.5 令 h ∶ R m → R 为一个非退化的核函数,令{ X n , n ∈ Z }为一个严平稳随机过程.如果满足下面的条件之一,则( n / mσ n )( U n ( h ) -θ )的渐近分布为标准正态分布:
(a)( X n ) n ≥1 在两个时间方向上是均匀混合的, ,对于 α >0,下式成立:
(b)( X n ) n ≥1 在两个时间方向上是均匀混合的,混合系数 φ ( n )满足以下条件:
和
(c)( X n ) n ≥1 是绝对正则的,对某些 α >0, σ 2 ≠0,系数 β ( n )满足以下条件:
且
式中, , 和 σ 2 表示 U n ( h )的分解中第1项的方差和渐近方差.
定理2.6 在独立同分布过程的原假设下,当样本量 n →∞时, 的渐近分布为
式中, 表示依分布收敛.由于 ε 是固定的,因此在下面的记号中省略 ε ,记 C j ≡ C j ( ε ), .
证明 设{ Y t , t ∈ Z }为一个 R m 值随机过程,观测值分别为 y 1 , y 2 ,…, y n .其2阶 U 统计量定义为
式中, h ∶ R m × R m → R ,且 h ( x , y )= h ( y , x ).
由于在关联积分中示性函数是有界的,即在0和1之间,满足文献[94]中的矩条件.另外,在严平稳性和条件独立性的假设下,弱相依条件也总是满足.定义下面的 U 统计量和 U 统计量的函数:
注意, 和 g j 是 U 统计量的函数.由于在严平稳性和条件独立性的假设下,当 n →∞时, 分别依概率收敛到 和 C j (推导可以从 U 统计量的性质直接得到).因此,当 n →∞时, g j 和 依概率收敛到0.换言之,在独立同分布的条件下, D 和 G 在样本值上是0.
令 D k 和 G k 分别表示 D 和 G 的 k ( k =1,2,3,4)阶偏导数在值 上的取值.
对任意满足条件 的光滑函数 H ,在值 上进行泰勒展开,取 n →∞时的极限,得到
式中,所有的偏导数 H ( i i =1,2,3,4)均在值 上进行计算,lim表示当 n →∞时依分布取极限. N (0, σ 2 )表示均值为0且方差为 σ 2 的正态分布.注意,式(2-25)的右边是 U 统计量的线性组合,因此函数 G 和 D (对应于 H = G , D )也分别是 U 统计量.令 和 T ~ j 分别表示当 H = G , D 时式(2-25)中的线性项,特别有
由式(2-25)可推出
式中,
式(2-28)中的极限可以直接求期望得到.结合式(2-26),得
式中,
因此再由式(2-27)可得
证毕 .
在实际应用中,应该特别注意参数 ε 的选择.由式(2-17)和定理 2.6 的证明过程可知,估计的精度随 ε 的减小而增大,标准差随 ε 的减小而减小.一般选择 ε =0.5 σ X ,1.0 σ X ,1.5 σ X ,其中, σ X 是随机过程的标准差.
在给定 的条件下,检验 X t 和 X t-j 条件独立性的具体步骤如下.
步骤1: 对于选定的显著性水平和初始样本 ,首先根据估计的残差,产生独立同分布随机变量序列 ,并计算统计量取值 .
步骤 2: 步骤 1 重复 B 次,得到 B 组初始样本,并分别计算统计量取值 .
步骤3: 利用经验分布
作为 T j 在原假设成立下的分布的近似,计算临界值 C α ,即 的1 -α 分位数,其中, α 为选定的显著性水平.
步骤4: 计算初始样本的统计量取值 .
步骤5: 如果 ,则拒绝 X t 和 X t-j 之间条件独立性的原假设.
本节用数值模拟方式验证统计量 检验条件独立性的能力.如果不做特别说明,所有模拟都重复 200 次.并且需要对每个时间序列进行预处理,转换为 0 均值和单位方差的数据.
对有限样本量,估计 是有偏差的.为发现偏差和样本量大小之间的联系,生成了样本量 n 分别为100,200,300,500,1000,3000时的独立同分布的标准正态分布随机变量数据.然后,计算取不同滞后阶数 j =1,2,…,5时 的值.表2.1给出了在不同样本量下重复200次估计得到的 的均值和标准差.
表2.1 根据不同样本量计算的 的均值和标准差
注:括号内的数字为估计的标准差,以下不再说明.
对于下面提到的模型,如果没有特别说明,都取相同的 ε .这里选择 ε =0.5的原因是,当 ε =0.5时, 的标准差最接近文献[78]的表2.1中的值,便于对检验结果进行比较分析.
表2.2给出了对样本量 n =300,重复进行1000次模拟,得到的 的均值、标准差和各显著性水平下的临界值.表 2.2 中的结果表明,对于样本量 n =300,检验独立性原假设的置信水平为95%时的临界值约为 0.03.表 2.2 中最后一行为正态分布 N (0,0.02 2 )相同显著性水平下得到的临界值.可以看出,模拟得到的临界值与这些值非常接近,进一步验证了独立同分布假设下 的渐近正态性.
表2.2 n =300,模拟1000次, 的均值、标准差和临界值
下面产生各种类型的时间序列数据来检验 的能力.为了进行比较分析,采用文献[78]中的10个模型:模型1~5为MA(Moving Average,滑动平均)模型,模型6~10为AR(自回归)模型,模型中, e t 是独立同分布的标准正态分布随机变量.
表2.3给出了模型1~5的检验结果.模型1为一个非线性MA(1)模型,理论上,除 G 1 外所有的 G j 都应该是0.在表2.3“模型1”列中, 是0.1267,其他的 接近于0,即独立情形的均值.类似的结果对模型2(非线性MA(2))和模型3(非线性MA(3))也成立,都只有相应滞后阶数随机变量的自回归系数非0.模型4也是非线性MA(3),但同时具有1、2、3阶的滞后相依联系.与表2.2中的95%临界值(约为0.03)相比,表2.3“模型4”列中的 都大于临界值,拒绝不存在相依联系(即系数为0)的原假设.
表2.3 模型1~5的检验结果: 的均值和标准差
表2.4给出了模型5~10的检验结果.对于AR模型5、6和7, 随 j 的增大而减小.对于随机游动模型8, 保持一个相当大的值,并且随 j 的增大,其减小变缓慢,不能准确检验出与1阶滞后变量 X t -1 的相依联系.
模型9是一个双线性模型,表2.4“模型9”列中的 都大于95%临界值(约为 0.03),验证了 检验时间序列中非线性相依联系的能力.模型 10 是一个具有 1阶滞后相依联系的非线性时间序列, 都大于95%临界值(约为0.03).
表2.4 模型5~10的检验结果: 的均值和标准差
对于模型 1~9,利用统计量 得到了与文献[78]中统计量 R 相同的结果,证明了对于这些模型中的相依联系检验问题,用广义关联积分估计的基于 2 阶广义互信息 I 2 ( X ; Y )的统计量结果非常接近用概率密度函数估计的基于 I 1 ( X ; Y )的统计量结果.
要检验AR模型5、6、7和8的正确滞后相依联系,合适的统计量应该是条件互信息度量 T .统计量 T 包含了比 G 更多的信息,关联积分中取 ε =1.0,并且延迟向量的维数 M =5.表2.5给出了样本量 n =500时,重复进行1000次模拟得到的估计量 的均值、标准差和临界值.表 2.5 中最后一行为正态分布 N (0,0.145 2 )相同显著性水平下的临界值,可以看出,模拟得到的临界值与这些值非常接近.这进一步验证了定理2.6中估计量 在独立同分布假设下的渐近正态性.
表2.5 n =500,模拟1000次, 的均值、标准差和临界值
表2.6给出了5个AR模型的检验结果.对模型5、6和7,除 外,所有的 都大于95%临界值(约为0.02),这和真实模型中只有一阶自回归系数不为0一致.对于随机游动模型8,也只有 大于95%临界值.而在文献[78]中,用Kendall的偏 τ j ,从滞后阶数 1 直到滞后阶数 8 的检验结果都拒绝了不存在相依联系的原假设.在这种情形下,统计量 优于 τ .
表2.6 模型5~10的检验结果: 的均值和标准差
下面 5 个非线性模型可以进一步验证统计量 检验非线性时间序列滞后相依联系的能力.
表 2.7 给出了模型 11~15 的检验结果.对于 SETAR(Self-Exciting Threshold Autoregressive,自激励门限自回归)模型11和12,EXPAR(Exponential Autoregressive,指数自回归)模型14,FAR(Functional-Coefficient Autoregressive,函数系数自回归)模型15,统计量 都给出了正确的滞后相依联系检验结果.对于GARCH(Generalized Auto Regressive Conditional Heteroscedastic,广义自回归条件异方差)模型13, 、 都是显著的,这可能是因为 GARCH 模型中的相依联系是由不可观测的变异率导致的.关于这些非线性模型的详细介绍可以参考文献[95,96].
表2.7 模型11~15的检验结果: 的均值和标准差