有时候,平均数和中位数作为位置估计都不很理想。一种解决方法是采用稳健(robust)的位置测量——截尾平均数(trimmed mean,
t
)。稳健性指统计分析方法对统计假设少量偏离的不敏感性(Huber,1981,p.2)。截尾量称作
γ
。20%是最常用的
γ
值。20%截尾平均数是最常用的稳健统计量,在大多数情况下表现优良。中位数是截尾平均数的特例,因为截尾量大约为50%。
截尾平均数在预先确定截尾量之后对样本截尾平均数进行计算。将一组数据由小到大排序,然后从两端截除样本20%的数值,由此得到剩余数值的平均数即为20%截尾平均数。令 g =[0.2 n ],即 g 取0.2 n 的整数部分,则20%截尾平均数的计算公式为:
假如有变量
X
的一组数值(
n
=32):56,61,54,49,64,66,48,52,68,62,67,61,57,58,61,52,62,65,59,60,63,50,71,69,55,56,58,51,56,73,100,150,试求20%截尾平均数。首先,将该组数据由小到大排序,得到:48,49,50,51,52,52,54,55,56,56,56,57,58,58,59,60,61,61,61,62,62,63,64,65,66,67,68,69,71,73,100,150。由于
g
=[0.2
n
]=6,20%截尾后的值为:54,55,56,56,56,57,58,58,59,60,61,61,61,62,62,63,64,65,66,67。根据公式3.4,得到
=60.05。R计算截尾平均数的函数为来自数据包Rallfun-v37中的函数tmean(x,tr=0.2),其中x是数值向量,tr表示截尾量,函数默认值为0.2,即计算20%截尾平均数。如果设置tr=0,则函数tmean计算常规的平均数;如果设置tr=0.5,则函数tmean计算中位数。本例数据的平均数
=63.56,中位数
Mdn
=60.5。由于本例有两个异常值(100和150),截尾平均数
与中位数
Mdn
接近,但是与平均数
差异较大。