◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎
用样本统计量(如样本平均数)估计总体的参数称作点估计(point estimate)。点估计容易受到样本的影响,因而点估计不太可能正好等于参数值。区间估计(interval estimate)克服了这一局限,提供总体参数存在的可能范围。这样的区间称作置信区间。置信区间表示为(1- α )×100%,其中 α 是第一类错误率(type I error rate, α )。95%置信区间表示在所有样本中有95%的样本得到的置信区间会包括总体参数,置信水平(confidence level)是95%,第一类错误率为 α =0.05。99%置信区间指在所有样本中有99%的样本得到的置信区间会包括总体参数,置信水平是99%,第一类错误率为 α =0.01。99%置信区间比95%置信区间的置信水平高,但是区间宽度(width)增大,估计的精确度降低。95%置信区间是最常用的置信区间。置信区间有两个极限(limits),一个是下限(lower limit, L ( X )),另一个是上限(upper limit, U ( X )),因而置信区间表示为[ L ( X ), U ( X )],其中 X 是随机变量。
总体平均数置信区间的计算假设抽样来自正态分布。在总体标准差( σ )已知的条件下,总体平均数95%和99%置信区间的计算公式分别为:
其中, M 为样本平均数, 为样本平均数标准误差 SE , n 是样本量。平均数抽样分布槡 n 95%置信区间的 Z 分数在-1.96和+1.96之间,1.96是正态分布概率值0.975对应的分位数。平均数抽样分布99%置信区间的 Z 分数在-2.58和+2.58之间,2.58是正态分布概率值0.995对应的分位数假如正态分布总体方差。 σ =3,某个随机样本( n =25)的平均数 M =30,试估计总体平均数95%和99%的置信区间。将样本平均数、样本量和总体标准差代入公式4.1和4.2,得到:95% CI [28.82,31.18];99% CI [28.45,31.55]。比较这两个置信区间可以发现,99% CI 比95% CI 稍宽。
在总体标准差未知的情况下,用样本标准差( S )来估计,(1- α )×100% CI 为:
其中, S 是样本标准差, n 是样本量, 为双尾(two-tailed) t 分布(自由度 ν = n -1)概率值1- α /2对应的分位数(常称作临界值,critical value,简称 CV )。关于 t 分布,见第7章。随着样本量 n 增大, 接近标准正态分布 Z 分数。譬如, n =100和 α =0.05时,双尾 t 检验临界值为 1.98,接近标准正态分布 Z 分数(值为1.96)。R计算 t 分布分位数的函数为qt(p,df),其中p是概率,df是自由度。R计算标准正态分布分位数的函数为qnorm(p,mean=0,sd=1),其中p是概率,mean=0和sd=1是R默认的标准正态分布平均数和标准差。如果在上例中,正态分布总体方差 σ 未知样本标准差, S =3,样本量及其平均数 M 不变,则总体平均数95%和99%的置信区间分别为:95% CI =30±2.06× ,即[28.76,31.24];99% CI =30±2.8× ,即[28.32,31.68]。利用R计算平均数95% CI 可以调用来自R数据包pastecs中的函数stat.desc,也可以调用数据包Rallfun-v37中的函数trimci(x,tr=0,alpha=0.05,null.value=0),其中x是数值向量,tr=0表示不截尾,alpha=0.05表示默认计算95%置信区间,null.value=0表示默认的零假设值为0。
需要注意的是,置信区间是随机区间,随着样本的改变,置信区间也随之改变。针对某个区间,包括被估计的总体参数值的概率要么为1,要么为0,即该区间要么包括总体参数,要么不包含总体参数。当我们说有95%的信心认为总体平均数包含在某个区间内时,我们实际上是指,如果我们根据反复随机抽样得到的同样大小的样本计算出一系列的区间,那么(近似)95%的区间应该包含总体平均数,具体的某个区间只是一系列区间中的一个。换言之,置信(confidence)适用于构造置信区间的程序,而非区间本身(Ugarte et al .,2015,p.454)。
我们通过模拟手段进一步了解置信区间的本质。假如我们从平均数 μ 为30、标准差 σ 为3的正态分布总体中随机抽取100个样本,每个样本量 n 均为20。当 α =0.05时,包含平均数30的置信区间期望数应为95,不包括平均数30的置信区间期望数应为5。图4.1模拟的是基于各个样本平均数估计正态分布总体平均数的 95%置信区间。
在图4.1中,横坐标代表模拟的次序,纵坐标为模拟得到的95%置信区间值。图中细线表示包括总体平均数 μ =30的置信区间,共有95个这样的区间,各个区间的宽度不相同;粗线表示不包括总体平均数 μ =30的置信区间,区间数共有5个,其中1个区间位于经过30的水平线之上,4个区间位于经过30的水平线之下,各个区间的宽度也不相同。模拟结果表明,置信区间受抽样误差的影响,具有随机性。本例计算的100个样本平均数中,大于总体平均数30的个数为48,小于30的个数为52,没有1例得到的平均数正好等于30,因而点估计是不准确的。但是,使用95%置信区间时,有95个样本正确估计了总体平均数所在的区间。在总体平均数未知时,95%置信区间使我们能够对总体平均数的大小有更好的了解。
图4.1 模拟的总体平均数95%置信区间
需要强调的是,使用公式4.3估计总体平均数95%置信区间时,抽样需来自正态分布。只有抽样来自正态分布,才能够利用理论 t 分布得到的临界值计算置信区间。如果抽样来自非正态分布,由此得到的 t 分布与理论 t 分布吻合吗?这里以对数正态分布(lognormal distribution)为例。如果一个随机变量 X 的对数log( X )为正态分布,则 X 服从对数正态分布。如果一个随机变量 X 的对数log( X )服从对数平均数 μ =0、对数标准差 σ =1的标准正态分布,则 X 对数正态分布的平均数 μ =1.649、 σ =2.161(近似值)。对数正态分布的特点如图4.2所示。
图4.2 对数正态分布
图4.2中的实线为对数正态分布曲线,虚线为正态分布曲线。从图中可以看出,对数正态分布为正偏态分布,尾巴较轻(异常值较少)。
我们从对数正态分布中随机抽取样本量 n =30的5 000个样本,利用以下公式计算每个随机样本的 t 值:
其中, 是每个样本的平均数, S 是每个样本对应的标准差, μ =1.649。由5 000个 t 值得到的 t 分布如图4.3中的实线所示,图中的虚线为理论 t 分布。
图4.3 非正态分布对 t 值的影响
当抽样来自正态分布时, t 值绘制的曲线为理论 t 分布曲线(自由度 v = n -1=29)。对照理论 t 分布曲线,从对数正态分布中抽样计算得到的 t 经验分布呈负偏态分布,而且右尾巴轻,左尾巴特别重。理论 t 分布为对称分布,平均数 μ =0,而本例中的 t 经验分布不对称,平均数 μ = -0.42。计算 95%置信区间时,实际的概率覆盖率(probability coverage)只有0.88,而不是0.95,因而置信区间的估计是不准确的。