购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 分析工具

对于线性、平稳过程,确定模型的分析工具得到了很大发展,而且这些分析工具的解释作用也得到了很好的理解。最常用的统计方法是自相关系数与互相关系数:

ρ k =corr(y t ,y t-k

c k =corr(y t ,x t-k

及其估计方法,偏相关系数:

045-2

也非常有用。如果过程不是线性平稳的,以上分析工具的用途就值得怀疑。例如,x t 、μ t 都是高斯白噪声序列。很明显,存在y t =βy t-1 x t-1 +u t ,对于所有k≠0,有ρ k =0;对于所有k,有c k =0,从而y t 既不能依据自身的历史数据进行线性预测,也不能根据x t 和y t 的历史数据进行线性预测。然而,通过非线性方法预测后一期y t 是可能的,相应的最优预测为:

f t,1 =βy t x t

此外,Blatt(1987)构造了扩散的上下界约束的确定性振动序列,发现该序列的自相关系数估计值与平稳过程的自相关系数差别不大。同样地,扩散AR(1)过程的自相关系数和平稳AR(1)过程的自相关系数也相差不多。显然,特定状态的专用工具用于其他地方必然产生误导作用,并且很难解释分析结果。

判断是否为非线性模型的简单工具很少,双谱是其中之一,但一般很难解释,也可利用相关程度、李雅普诺夫指数(Lyapunov exponents)、柯尔莫哥洛夫(Kolmogorov entropy)等描述性统计量分析混沌过程,具体的统计量描述可参见Lorenz(1989)。尽管上述统计量能区别确定性混沌过程和随机过程(参见3.3节的讨论),但不能用于区别两个随机过程。

潜在有用的统计工具应该能测度y t 和y t-k 或y t 与x t-k 之间的关系,存在许多衡量关联度的有用方法。对于随机变量y和x,相应的统计工具包括:

(a)最大相关系数,定义为:

mρ=corr(g(y),f(x))

其中,函数f、g是使得mρ达到最大的函数。

(b)最大均值相关:

mm=corr(y,f(x))

其中,函数f是使得mm达到最大的函数。

(c)最大回归系数:

mr=R 2 回归

y=f(x)+残值

其中,函数f是使mr达到最大的函数。

在时间序列中,对于mρ yy (k)而言,y可以是y t+k ,x可以是y t ;对于mρ yx (k)而言,x可以是x t ,可以利用Breiman和Friedman(1988)提出的ACE法则估计函数mρ,可以利用ACE的第一步估计函数mm。一般认为,相应函数是三次函数或非参数函数,可以直接运用Tibshirani(1988)提出的法则估计mr。可以通过选择y t 或x t 的参数函数对y t+k 进行回归得到mr的近似值。例如,选择log|x|、x、x 2 和exp{x}。 047-1 的数值暗示非线性关系的潜在相关程度。

此外,Pinsker(1964)和McEliece(1977)讨论的相互信息测度(mutual information measure)理论中,存在“影子自相关系数”(shadow autocorrelation)R的有用统计量。令X、Y是一对随机变量,其联合密度分布函数为p(x,y),边际函数为p 1 (x)和p 2 (y),相互信息测度I(X,Y)定义为:

047-2

并定义

R 2 (X,Y)=1-exp(-2I(X,Y))

Granger和Lin(1991)指出,R(X,Y)具有以下性质:

(1)当且仅当X、Y独立时,R=0。

(2)当且仅当X=f(Y),其中f()可逆时,R=1。

(3)若分别同期变换X和Y得到g(X)和h(Y),则R不变。

(4)若X和Y(可能各自经过同期变换)的最终变量服从联合高斯分布,其相关系数为ρ,则R=|ρ|。当然,不一定存在该变换。

如果用x t 和x t-k 代替X和Y,R k ≡R(x t ,x t-k )为广义自回归系数,那么,可以利用广义自回归系数估计适合模型的滞后阶数,可以用非参数方法估计相应的分布函数。

Granger和Lin(1991)通过模拟方法研究了 048-2 的性质。例如,对于独立同分布过程,样本量为n时,核密度估计(kernel density estimator)的带宽(band width)与n -1/5 成比例。由于限制估计值为正,即使R k 的期望值为零, 048-7 的期望值仍为正数。表2-1给出了 048-8 的偏度。

表 2-1

048-3

在其他滞后阶数下, 048-4 的大小亦相似。例如,样本量为300与原假设为R k =0时,95%和99%的临界值分别是0.204 5和0.221 2。因此,对应该样本量,大于临界值的 048-5 的估计值说明x t 和x t-k 不是相互独立的。成功使用影子自相关系数,将下面每个模型模拟200次,生成一个样本量为300的模型:

(1) 048-6

(2)y t =0.6e t-1 y t-2 +e t (bilinear)

(3)y t =4y t-1 (1-y t-1 )(deterministic chaos)

其中,e t 是服从N(0,1)的独立同分布序列。

表2-2给出 049-1 的平均估计值,不同模型的显著水平对应于相应的滞后阶数。与随机过程相比,混沌序列的显著水平较低。线性自回归模型和非线性自回归模型的结果也很值得注意。

表 2-2

049-2

①表示至少在95%的临界值。

例如,下面的三个模型:

(4) y t =|y t-1 | 0.8 +e t (NLAR(1))

(5) y t =sign(y t-1 )+e t (NLAR(1))

(6) y t =y t-1 +e t .(随机漫步)

表2-3给出了 049-3 的平均值。对于非线性AR(1)模型,影子自相关系数指数递减,并且与线性AR(1)模型的自相关系数的表达式相似。同样,与线性自回归模型一样,随机漫步模型的 049-4 随着k的增加而缓慢减小,只是在较低的滞后阶数下, 049-5 存在过小偏差。

表 2-3

050-1

当k增加时,广义偏相关很难估计,但也可以定义。有用的统计量是Kendall偏(τ),Quade(1976)将其定义为:

考虑随机变量X t 、Y t Z t ,且‖ Z t - Z s ‖≤L,‖U‖是范数,L是预先确定的许可范围,根据上述条件,定义μ(t,s)=sign[(X t -X s )(Y t -Y s )],C p =μ(t,s)为正的(t,s)组合个数,D p =μ(t,s)为负的、0≤t≤T的(t,s)组合个数,N p 是μ(t,s)为常数的(t,s)组合个数。最后,定义

τ p =(C p -D p )/N p

在时间序列下,令X=x t ,Y=x t-k Z =x t-1 ,…,x t-k+1 。基于该统计量及其渐进服从正态N(0,1)分布的检验方法有助于正确选择简单非线性自回归模型的滞后阶数,但不适用于选择非线性移动平均模型的滞后阶数。与线性模型的自相关系数的偏相关系数一样,该统计量及影子自相关系数和Kendall偏(τ)也非常有用。

最后的有用工具是帮助确定模型的组成部分。为了解释该方法,假定只有两个可观测输入x t 和w t 解释y t ,相应模型的形式为:

050-2

两个统计量有助于选择p值和q值:

051-1

其中, 051-2 是特定p和q的残差e t 的估计方差,n是参数α和β的最大似然估计的样本数。AIC与BIC统计量用于估计各种可能的p和q,p 0 和q 0 是最小化统计量的响应值。如果p和q的真实值无界,那么问题是对应样本数n,哪个有界的p 0 和q 0 最接近于真实的无界模型。此时,可以使用AIC统计量。如果真实模型p和q是有界的,那么,可以使用BIC统计量。对于AIC和BIC统计量,没有显著性检验能验证(p 0 ,q 0 )的模型显著优于(p 0 -1,q 0 -1)的模型。现实的输入一般超过两个,需要选择许多参数p 1 ,…,p m ,而不仅仅是p和q。选择多参数的较大模型时,AIC和BIC统计量提供了相应的损失惩罚,可参见Judge等(1985)。此处假定输入已知,但是许多模型的函数形式是输入的线性组合。第7章讨论的神经网络或非参数模型的函数形式可以表示为ϕ(∑c j x t-j )。这些例子通常包括许多参数,例如函数内部参数和与函数相乘的参数。若存在p个这样的函数,并且每个函数都是r个输入的不同线性组合,则参数总数为pr。Rissanen(1989)建议使用pr代替p的BIC准则,并称之为复杂性准则。如前所述,尽管可以选择最小化BIC准则的p值,但是还不存在显著性检验。 sFyFgA997yBKzkHXfjUr9fnIz8LtN0dDPkKZaTqB/quZRVRtageUQbfT8Se2BSyq

点击中间区域
呼出菜单
上一章
目录
下一章
×