在众多流行的非线性模型中,一个共同的特征是这些模型中嵌套着线性模型,如果线性关系成立,则线性模型不可识别。考虑如下的可加非线性模型
y t = β ′ 0 z t + β ′ 1 z t G( γ ; s t )+ε t =( β 0 + β 1 G( γ ; s t ))′ z t +ε t
(5-13)
其中, 是m×1维的解释变量向量,且{ε t }~iidN(0, σ 2 )。此外, β 0 和 β 1 是m×1维参数向量, γ 是r×1维参数向量。函数G( γ ; s t )是另一组变量 s t 的有界标量函数,这组变量可以是随机的过程,也可以是确定的过程。通常, s t 是一个标量,且仅仅是 的元素。式(5-13)的特例涵盖了平滑转换回归模型、两机制的转换回归模型、单一的结构突变线性模型( s t =t;G=0,t≤t 0 ;G=1,t>t 0 )和两机制的马尔可夫状态转换回归模型。在最后提到的情形中, s t 是离散的潜在变量。当 β 1 = 0 时,模型是线性的。在这种情况下,参数向量 γ 是不可识别的,它可取任意值,而不对过程的似然性产生影响。因此,从式(5-13)得到 β 0 、 β 1 和 γ 一致估计量是不可能的。
如果 γ 是已知的,将不会出现这个问题。在这种情况下,式(5-13)关于变量 z t 和G( γ ; s t ) z t 的参数是线性的,且在正则性条件下,可通过标准推断对原假设 β 1 = 0 进行检验。如果假定 s t 和 z t 是固定的,此时, ,则精确的有限样本检验(F检验)是可获得的,否则分布理论为渐近的。当 γ 未知时,标准分布理论不可获得,这是因为当 β 1 = 0 成立时,模型的参数不能一致估计。
当模型仅在备择假设下可识别时,原假设的检验问题,最早由Davies(1977)提出。一般的思路如下:如前面所讨论的那样,当 γ 已知时,模型可识别,且式(5-13)的线性检验是很简单的。令S T ( γ )为一致检验统计量,其大值构成临界值,并且定义参数空间Γ={ γ : γ ∈Γ}。当 γ 未知时,由于统计量是 γ 的函数,因此,此时该统计量不具有实际可操作性。Davies(1977)建议通过定义另一种不是 γ 的函数的统计量S T =sup γ ∈Γ S T ( γ )来解决原假设的检验问题。在某种程度上,这是保守的选择,因为根本的问题是,对于 γ ∈Γ来说,检验统计量S T ( γ )的值要多大,原假设才能仍然成立?对此,在原假设下,S T 的渐近分布提供了答案。它通常没有解析形式,但Davies(1977)给出在某种条件下成立的该统计量的一个近似,包括S( γ )=plim T→∞ S T ( γ )有导数的假设。对于不同的解决方法,可参阅Davies(1987)的评述。检验统计量也有其他选择,包括“平均的”和“指数的”统计量。“平均的”统计量为
S T =aveS T ( γ )=∫ Γ S T ( γ )dW( γ )
(5-14)
其中,W( γ )是由使用者定义的加权函数,要满足∫ Γ W T ( γ )d γ =1。“指数的”统计量为
S T =ln(∫ Γ exp{(1/2)S T ( γ )}dW( γ ))
(5-15)
Andrews和Ploberger(1994)推荐使用这些检验方法,并证明了他们的局部渐近最优性质。式(5-14)和式(5-15)的统计量是平均指数检验族群中的两个特例,可参阅Andrews和Ploberger(1994)给出的定义以及对相关细节的解释。他们也提供了第5.2节所讨论到的,在一致设定偏误检验中的冗余参数问题的一个解决方法。
Hansen(1996)提供了关于识别问题的全面讨论,并指出了在一般的情况下,如何通过模拟以获得这些统计量的渐近临界值。给定观测值(y t , z t ),t=1,…,T和正态误差,则式(5-13)的对数似然有如下形式
假设 γ 已知,则参数的平均得分等于
其中, A ⊗ B 是矩阵 A 和 B 的克罗内克积,参阅Lütkepohl(1996)的例子。利用式(5-16),定义一般性的拉格朗日乘数和Wald检验。LM检验统计量等于
其中, 是 θ =( β ′ 0 , β ′ 1 )′在H 0 下的极大似然估计量,且
是总体信息矩阵 I ( θ )的一个一致估计量。相应地,Wald统计量等于
其中, 且 R =[ 0 m I m ]“帽”表示在备择假设 β 1 ≠ 0 下,参数向量的估计量。上确界或平均统计量的经验分布可以通过模拟获得。如果参数空间Γ是连续的,事实上,通常就是连续的,那么,在实际中则必须通过离散的空间Γ * ={ γ 1 , γ 2 ,…, γ A }来近似。作为例子,可考虑拉格朗日乘数统计量 。S T 的经验分布通过如下方式获得:
(1)对于每一个j=1,…,J,从正态分布 中独立抽取,以生成T个误差项 ,t=1,…,T,共JT个观测值。残差方差 通过估计原模型y t = β ′ 0 z t +ε t 获得。这样就生成了扰动项的J个序列。
上述步骤每执行一次,就可获得统计量的一个模拟值 。重复J次,可以从 的分布中生成一个随机样本 。如果从样本中直接获得的 超过了经验分布的100(1-α)%分位数,则在(近似)显著性水平α下,拒绝原假设。检验的功效取决于近似Γ * 的质量。如果Γ * 不是足够密集的,那么检验效果可能较弱。Hansen(1996)应用这种方法,对针对两机制门限自回归模型的线性性进行了检验,即当 z t = w t 时的式(3-5)。如果门限变量y t-d 是已知的(d是已知参数),则参数空间是一维的。假设仅知道转换变量属于事先设定的一组变量,在TAR模型中是滞后期的集合,例如,前p阶的滞后项{y t-1 ,…,y t-p }。这意味着Γ * 的维度从1增加到了p,但方法本身仍然可行。这样做可能造成的额外无知只会加重计算工作量。
如Hansen(1996)指出的那样,在构建检验统计量S T 的经验分布时,阶段1也可以从原模型的估计残差序列 中抽取。文献中提出的另一种可能性是,从残差中重新抽样来获取S T ( γ ),而不是S T 的经验分布。这种方法的一个优点是,在保持 γ 固定时,相对于S T ,S T ( γ )的模拟更便于计算。这个方法的主要问题在于,由于S T ( γ )中冗余参数的存在,标准自助估计量不是一致的。这里的一致性意味着,当T→∞该估计量依概率收敛于统计量的渐近累积分布时,统计量的累积分布函数的自助估计量是一致的,更详细的讨论可参阅Horowitz(2001)。通常,可以用重置的二次抽样对此进行改进。在该方法中,通过估计获取的总体的自助样本容量T B 要小于原有总体(T B <T),否则与标准自助法无差异。当估计模型时,观测值的数量通常用n(与T相反)来表示,且单一自助样本容量用m表示,m<n,则称此为“m-out-of-n”自助法。在重置时执行二次抽样的假设下,Bickel、Götze和van Zwet(1997)对此进行了研究。如果m→∞且m/n→0,则在一定条件下,重置自助法将对讨论中统计量的渐近分布进行一致估计。当然,如果说似然比统计量是模拟的,则这种方法需要 γ 的估计量。由于估计必须进行数值计算,因此,有一种可能是因最大似然估计缺乏一致性会表现为不收敛。在这种情况下,检验无法进行。但启发式估计法,如模拟退火法,有时可能会有用。这些将会在第12.1节进行讨论。
Skalin(1998)以及Coakley和Fuertes(2006)研究了模型仅在备择假设下可识别时线性性的检验问题。Skalin(1998)在非线性模型是STAR模型下,把似然比统计量的m-out-of-n自助法与拉格朗日乘数型检验进行了比较(后者将在下一节讨论)。他发现,LM型检验往往比自助法检验效果好,但LM型检验在这方面并未占主导。在这项研究中,非收敛性不是一个重要问题。仅有少部分的自助重复试验因为这个原因被拒绝。
Coakley和Fuertes(2006)探讨了针对三机制TAR模型的平稳自回归模型的检验,由于模型参数化的方式(左边的一次差分和右边的滞后水平项)而称其为均衡TAR模型。这只是式(3-4)的TAR模型的重新参数化,此时, z t = w t 和r=3。模拟结果表明,当名义水平为0.05时,对T=100而言,文章中考虑的检验统计量已经具有合理的规模性质。
为使上节的检验方法适用,可通过模拟来获得它们的零分布。本节将讨论处理识别问题的另一种方式。通过绕开识别问题,可以近似估计条件对数似然或非线性模型,而不用近似检验统计量的未知分布。Saikkonen和Luukkonen(1988)首次对此观点进行了讨论,也可参阅Luukkonen、Saikkonen和Teräsvirta(1988a),Granger和Teräsvirta(1993),及Teräsvirta(1994)的讨论。
再次,考虑可加非线性模型式(5-13),定义 γ =(γ 1 , γ ′ 2 )′,并假设当且仅当γ 1 =0时,G(γ 1 , γ 2 ; s t )≡0。此外,对所有的 s t 和 γ 2 ,在γ 1 =0的开区间内,假设转换函数G(γ 1 , γ 2 ; s t )至少k阶连续可微。这个假设使得通过泰勒展开近似估计转换函数G(γ 1 , γ 2 ; s t )成为可能,且规避了识别问题。应当注意的是,由于缺乏识别性,线性假设也可以表述为H 0 : γ 1 =0。在原假设下,G的局部近似为:
其中, ,j=1,…,k,且R k (γ 1 , γ 2 ; s t )是余项。重新参数化后,用式(5-17)的G替代式(5-13)中的,得到
其中,当且仅当γ 1 =0时,参数向量 β j (γ 1 )= 0 ,且误差项 (γ 1 , γ 2 ; s t )。此时,可把最初的原假设重新表述为H′ 0 : β j (γ 1 )= 0 ,j=1,…,k。这是线性模型中的线性假设,因此,从原理上来说,可以用标准渐近理论进行检验,但要求Eδ j ( s t ) 2 z t z ′ t 存在。并且,在原假设下, ,标准渐近理论是适用的。可以把式(5-18)的辅助回归方程视为权衡的结果,其中包含了备择模型的结构型与更大的原假设和标准渐近推论相互交换的信息。如第5.2节所讨论的那样,针对所有非线性备择假设,结果检验并不都是一致的,因为式(5-18)中代表非线性的组成成分是一个多项式。但是,此外,也可把式(5-18)应用于保留模型是定义明确的非线性模型的情形,并且对模型构建者来说,具有针对所有偏离线性的检验功效并不必要是关注的重点所在。
例如,第3.4.1节中讨论的平滑转换回归模型。这是式(5-13)的一个特例,其中 γ 2 =c,且
G(γ 1 ,c,s t )=(1+exp{-γ 1 (s t -c)}) -1 -1/2,γ 1 >0
(5-19)
正如第3.4.1节中的定义,从转换函数中减去1/2,有助于符号的一致性且不会对结果产生影响。当γ 1 =0时,G(γ 1 ,c,s t )=0。转换函数在γ 1 =0处的一阶泰勒展开式为
T(γ 1 ;s t )=(γ 1 /4)(s t -c)+R 1 (γ 1 ,c;s t )
(5-20)
在式(5-13)中,用式(5-20)代替式(5-19),重新参数化后,得到
其中, ,故 ,且 。向量 的元素是除式(5-13)中γ外的其他参数的函数。因此,转换的原假设为H′ 0 : 。在该假设条件下,且假设 存在,作为结果的LM统计量渐近服从自由度为m的χ 2 分布。
正如第5.5.2节讨论的,针对门限自回归的检验包含了这样一种情况,即门限变量是未知的,但已知其属于一组预置的变量,尤其是y t 的滞后期。同样的方法可以修正针对STR的LM型检验,可参阅Luukkonen等(1988a)对该问题的讨论。另一个值得注意的地方在于,如果仅有式(5-13)中截距受转换函数影响,即当式(5-13)中 β 1 =(β 11 ,0,…,0)′,同时,s t 是 z t 中的元素,则基于式(5-21)的检验将无效。在这种情况下,泰勒展开的唯一贡献是与线性项融合在一起。结果是, 和检验几乎没有效果。这个问题可以用一个更高阶的泰勒近似估计量来补救,但三阶就足够了。这保证了辅助回归包含检验效果显著的项,请再次参阅Luukkonen等(1988a)的相关讨论。
实践中,LM型检验可能在第5.3.2节讨论的TR 2 形式下进行。如前所述,基于渐近理论,检验的F形式比χ 2 检验更受偏好,也可以加强针对异方差误差的LM型检验。在对抗异常值时也会更加稳健,参阅Dijk、Franses和Lucas(1999b)对此问题的阐述。
在对SR模型式(3-4)的线性性进行检验时,不能运用本节提出的识别问题的解决方法。这是因为当转换函数G( γ ;s t )非平滑时,可微假设不再满足。但是,实际上,基于式(5-21)的辅助回归的LM型检验,对两机制转换回归模型的检验效果是显著的。因此,建立SR模型时,这种检验是可以应用的,参阅第16.4节的讲解。其效果不能和上确界(或者“平均的”)检验中的一样好,因为STR模型包含了作为特例的转换回归模型。这意味着STR的备择假设更大,因此,针对转换回归的检验效果要弱于上确界的检验效果。Hansen(1996)在一个较小的模拟研究中阐释了这点。
蒙特卡罗(Monte Carlo)检验技术,简称MC检验,在统计上是由Dwass(1957)提出的,且Dufour(2006)及Dufour和Kiviet(1996)在计量经济学中也对此进行了介绍,目前这种检验方法已经成功地应用于计量经济学的各种检验情形。其有用性在于:蒙特卡罗检验的小样本性质通常优于现存的渐近检验。当统计量的零分布由模拟构建时,MC检验使得在小样本中进行精确推理成为可能。当模型的解释变量对其系数而言是强外生时,检验统计量的渐近零分布是不受冗余参数影响的,且小样本分布(或者一个合适的临界值)的模拟也比较简单。
MC检验的思路可描述如下。令S T 为具有临界区{S T :S T ≥c S }的检验统计量,其中,c S 是临界值。设 Θ 0 为参数空间的子集,且该参数空间在原假设下具有一致性。当sup θ ∈ Θ 0 Pr{S T ≥c S }=α时,检验的大小(size)等于α。典型地,S T 的有限样本零分布不能通过分析得到。在MC检验中,通过模拟该分布获得其真实分布的近似。如果零分布不受冗余参数的影响,则可生成的N个相互独立的S T 值,记为 ,且独立于样本值 。从N次抽取中得到经验p值为
其中, 是抽取频率,其值超过 。当选择的N使α(N+1)为整数时,在原假设H 0 下, 。重复的次数N通常很小。例如,对于α=0.05,N=19已能充分满足要求,而对于α=0.01,需要N=99。更大值可提高检验效果,但同时也将增加计算量,付出计算成本。
这种方法可用于STR模型的线性检验,当对于目标参数而言,解释变量和转换变量是外生的。此时,备择模型为式(3-14)的特例,其模型的形式为
y t = Φ ′ x t + ψ ′ x t G(γ, c ,s t )+ε t
(5-22)
其中,G(γ, c ,s t )的定义与式(3-15)相同。令 x 2t (γ, c )= x t G(γ, c ,s t )且 X 2 (γ, c )=( x 21 (γ, c )′,…, x 2T (γ, c )′)′,则 X 2 (γ, c )是T×k的矩阵。当γ和c固定时,线性假设H 0 : ψ = 0 的LM统计量有标准形式
其中, , y =(y 1 ,…,y T )′, 是Φ在H 0 下的最大似然估计量, M X 1 = I - X 1 ( X ′ 1 X 1 ) -1 X 1 ,其中, X 1 =( x ′ 1 ,…, x ′ T )′,且 。H 0 的自由于冗余参数的统计量已在第5.5.2节进行了讨论。
为了对H 0 构建MC检验,应注意到式(5-23)的统计量是不受冗余参数 Φ 影响的。这是因为它以 X 1 和 X 2 (γ, c )为条件的零分布,仅依赖于 ν = ε /σ的分布,其中, , 。因此,有
在H 0 下,模拟式(5-23)不需要任何关于 的知识。而且,在H 0 下,模型独立于γ和 c ,同时,式(5-23)的零分布仅仅取决于 ν 的分布。González和Teräsvirta(2006)模拟了“平均的”统计量aveS LM (γ, c )、“指数的”统计量expS LM (γ, c )和统计量supS LM (γ, c ),参见第5.5.2节。最小样本量是25。三个检验都没有出现规模失真,但上确界检验明显没有其他两个有效,且与其他两个相比需要更多的运算。
González和Teräsvirta(2006)指出,相对于第5.5.3节所讨论的LM型检验,“平均的”和“指数的”检验均在小样本中更加有效。这是很显然的,因为LM型检验基于近似备择假设的思想。但问题来了:MC检验是否应该更受偏好。存在一些支持LM型检验的争论。首先,当备择模型是STR模型时,LM检验的效果确实随着样本规模增大而快速提高。其次,MC检验的计算成本也随着样本量增多而增加。这并非不重要,因为在实际建模中,将要开展的检验的数量是非常庞大的,第16.3节将对此进行讨论。
MC检验技术也适用于解释变量和转换变量为外生时,转换回归模型的线性检验。在这种情况下,由于斜率参数γ没有在模型中出现,计算成本比前面的例子要低。
当STR模型是动态模型时,情况会有所变化。假设它是STAR模型,即在式(5-22)中用 w t =(1,y t-1 ,…,y t-k-1 )′替代 x t 。此时,式(5-23)的零分布不再独立于 Φ ,换句话说, Φ 是一个冗余参数。这个难题可用Dufour(2006)探讨过的所谓的最大化蒙特卡罗检验解决。此外,González和Teräsvirta(2006)的模拟结果表明,只要在计算MC统计量时使用 和一个参数自助法,MC检验就可以继续使用。尽管仅当T→∞时,这种经验分布才有效,但模拟的结果表明,这个方法蕴含的规模失真仍然很小。
关于线性检验中的冗余参数问题,前面章节已经讨论了两种解决方法。还有一个思路是选择大量的代表冗余参数空间的值,这种选择要优于只选择单一值。参数的值从研究者根据目的定义的分布中随机抽取(在第5.2节中,把冗余参数视为随机变量)。再次考虑模型式(5-13),这个过程可以对每一次抽取计算一个式(5-13)中非线性函数G( γ ; s t )的值。然后,用这些值组成模型的新变量,使增广模型具有以下形式
其中,γ (j) (j=1,…,J)是 γ 的j次随机抽取。线性假设是 β 1 =…= β J = 0 。从式(5-24)可以看出,对每个增加的 β j ,模型中变量的数量将增加m。Lee等(1993)提倡使用该过程,并将其用于单一隐藏层的神经网络模型的线性检验,此时,线性组合 β ′ j z t 将分解为常量 β ′ j z t =β j ,j=1,…,J, s t = z t ,且G(γ (j) ; z t )是一个逻辑函数或者“S形”函数:
G( γ (j) ; z t )=(1+exp{( γ (j) )′ z t }) -1 ,j=1,…,J
当J很大时,某些变量之间可能存在共线性,且Lee等(1993)建议只使用前J 0 <J个一般的主要项作为辅助模型中的解释变量
其中, ,j=1,…,J 0 是新的解释变量,且原假设是 。这可以用标准理论进行检验,因为 γ (1) ,…, γ (J) 是已知向量。检验的效果取决于随机抽取能够覆盖冗余参数空间的充分程度。Teräsvirta、Lin和Granger(1993)研究表明,在对第3.6节ANN模型进行线性检验时,该技术的表现不能与基于Kolmogorov-Gabor多项式的方法相提并论。第5.6.2节将对Kolmogorov-Gabor多项式的方法进行讨论。