◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎
样本平均数和标准差是最小二乘法估计量(least squares estimators),易受异常值的影响。样本截尾平均数(
)(稳健位置估计)和缩尾标准差(
S
w
,
s
w
)(稳健标准差估计)则不受或较少受到异常值或偏态分布的影响。
总体截尾平均数( μ t )95%置信区间利用截尾平均数和缩尾标准差,计算公式为:
其中,
是自由度为
ν
=
n
-2
g
-1(
g
=[
γ
n
],
γ
是截尾量)的双尾
t
分布1-2/
α
对应的分位数。研究中通常采用20%截尾平均数和20%缩尾标准差,即
γ
=0.2。
假如有以下一组按升序排列的数据(
n
=20):23,23,24,24,24,25,25,26,26,27,28,28,28,29,30,31,35,37,44,49,试求总体截尾平均数95%置信区间。本例中,
α
=0.05,
ν
=11,
γ
=0.2,20%截尾平均数
=27.25,
S
w
=2.796 1,
=2.201。利用公式4.5,总体截尾平均数 95%
CI
为:[27.25-2.201×
,27.25+2.201×
,即[24.96,29.54]。R计算20%截尾平均数95%
CI
的函数为来自数据包Rallfun-v37中的trimci(x,tr=0.2,alpha=0.05,null.value=0),其中,x是数值向量,tr=0.2是默认的截尾量,alpha=0.05为默认的第一类错误率。
如果利用常规平均数(
=29.3)计算总体平均数 95%
CI
,则得到:[26.02,32.58]。总体平均数
μ
95%
CI
比总体截尾平均数
μ
t
95%
CI
要宽。在数据服从正态分布时,
和
都是总体平均数
μ
的无偏估计。当总体分布呈偏态时,
估计总体截尾平均数
,
通常比
μ
更接近更多的观测值(Kline,2013,p.58)。利用函数out(x)诊断发现,本例数据有两个异常值(44,49),分布右偏,
比
更能反映数据的集中趋势,建议本例使用截尾平均数95%置信区间。