条件期望和条件方差是计量经济学的基本分析工具。首先介绍条件期望、条件方差的定义及性质。
对于二维随机变量( x , y ),变量 y 的条件概率和条件分布定义为:当变量 x 取某固定值时(条件), y 的值是不确定的, y 取不同值的概率称为条件概率。而 y 的不同取值会形成一定的分布,这是 y 的条件分布。
变量 y 的条件期望定义为:对于 x 的每一个取值, y 所形成的分布确定其期望或均值,称为 y 的条件期望或条件均值,用 E [ y | x ]表示。 y 的条件期望是随 x 的变动而变动的,是 x 的函数。条件期望可表示为:
条件期望是在给定 x 的一定条件下 y 的期望,是 x 的函数。它具有以下几个简单而很有用的性质:
(1)期望迭代律
E [ y ] = E [ E [ y | x ]]
即条件期望的条件期望等于无条件期望。
(2) E [( ax + by ) | z ] = aE [ x | z ] + bE [ y | z ]
或者更为一般的情形是:设 a 1 ( x ) , a 2 ( x ) ,…, a G ( x )和 b ( x )为 x 的标量函数, y 1 , y 2 ,…, y G 为随机变量,那么:
=
(3)对于任何二元变量及分布,可以证明
Cov (
x
,
y
) = Cov(
x
,
E
[
y
|
x
])=
从这个性质中,可以引申得到
E ( u | x ) = 0⇒Cov( x , u ) = 0
由此可以帮助我们理解线性回归中的两个基本的古典假设:强外生性假定(在 x i给定的条件下, u i 的条件均值为零)和弱外生性假定(随机扰动项与解释变量不相关)。强外生意味着弱内生,反之不然。
有了条件期望的定义和性质后,我们给出条件方差的定义。
条件方差的定义为
Var[ y | x ] = E [( y - E [ y | x ]) 2 | x ] = E ( y 2 | x ) -( E [ y | x ]) 2
它是在方差定义公式中涉及期望的地方换成条件期望。条件方差可理解为分组情况下的集中或分散程度的度量,或者分组条件下变量差异程度的度量。它常用的性质有:
(1) Var( ( a ( x ) y + b ( x ))| x ) = ( a ( x )) 2 Var( y | x )
(2)方差分解定理:
Var[ y ] = Var[ E [ y | x ]]+ E [Var[ y | x ]]
即,任何一个随机变量的方差可以分解为其条件期望的方差和条件方差的期望。它是传统计量经济学中方差分解的理论基础。
上述条件期望和条件方差的定义和性质均可推广到多维的情形(比如 x 本身就是向量的情形)。
条件期望和条件方差是计量经济学分析的知识基础,而主要的分析对象或工具则是总体回归函数、样本回归函数等。
回归函数的定义为:被解释变量 Y 的条件期望 E [ Y | X ]随解释变量 X (可能是向量)的变化而有规律的变化,如果把 Y 的条件期望表示为 X 的某种函数 E [ Y | X ] = f ( X ),这个函数称为回归函数。对于每一个 X 的取值,都有 Y 的条件期望与之对应,代表 Y 的条件期望的轨迹形成的直线或曲线称为回归线。回归函数分为总体回归函数和样本回归函数。
总体上看,被解释变量 Y 的条件期望表现为解释变量 X 的某种函数 E [ Y | X ] = f ( X ),这个函数称为总体回归函数(PRF)。本质上,总体回归函数体现了特定总体中被解释变量随解释变量的变动而平均变动的某种规律性。然而总体通常是庞大而未知的,所以很难直接找出总体回归函数 E [ Y | X ] = f ( X )。这时需要通过样本回归函数对总体回归函数做出估计。
计量经济学的根本目的之一是要探寻变量间数量关系的规律,也就要努力去寻求总体回归函数。作为总体运行的客观规律,总体回归函数是客观存在的。但在实际的经济研究中总体回归函数通常是未知的,只能根据相关的经济理论和实践经验去设定。
而样本回归函数则是根据总体回归函数的设定形式,对应写出其相应的表达式,并进行估计。经典计量经济学分析方法一般分为模型设定、参数估计、模型检验、模型应用四大步骤。模型设定是首要的一步。
既然计量经济学研究中“计量”的根本目的之一是要寻求总体回归函数,我们所设定的计量模型实际就是在设定总体回归函数的具体形式。总体回归函数中 Y 与 X 的关系可能是任何形式,可以是线性的,也可以是非线性的。
假如 Y 的条件期望 E [ Y | X ] = f ( X )是解释变量 X 的线性函数,则可以表示为
E [ Y | X ] = f ( X ) = α + βX
而关于个别值表现,或随机设定形式则理解为:对于一定的 X i , Y 的各个别值 Y i 并不一定等于条件期望,而是分布在其周围,若令各个 Y i 与条件期望 E [ Y i | X i ]的偏差为 u i ,即 Y i - E [ Y i | X i ]= u i 。 u i 称为随机扰动项(随机误差项),它是众多细小的无法观测或未认知的随机因素的总和,是个随机变量。于是, Y i = E [ Y i | X i ]+ u i = α + βX i + u i ,此即一个简单的一元线性回归模型的设定。
而一般常用的模型设定为多元线性回归模型
Y i = β 1 + β 2 X 2 i + …+ β k X ki + u i ( i = 1,2,…, n )
其中 Y 为被解释变量, X 2 ,…, X k 为 k - 1 个解释变量, u 为随机扰动项或随机误差项。 β 1 , β 2 ,…, β K 则是 k 个待估计的参数。或写为矩阵形式:
其中
,
,
,
此时样本回归方程是
而主要的任务就是通过合适的方法,估计得出未知参数
β
的估计量
。
其中
,
是残差项。
这就是最基本最常用的经典线性回归模型设定。
模型设定应该根据实际问题的背景理论及研究需要,设定出正确或最适合的模型。当然这不是容易的事情。除了经典线性回归模型,以下也是常见的模型形式:
ln
Y
i
=
Y
i
=
它们对于参数来说还是线性的。其对应的样本回归方程是
ln
Y
i
=
Y
i
=
亦可采用适当的方法进行估计。