语言学研究统计分析方法最新章节_鲍贵著

◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎

4.2
截尾平均数95％置信区间

样本平均数和标准差是最小二乘法估计量（least squares estimators），易受异常值的影响。样本截尾平均数（）（稳健位置估计）和缩尾标准差（ S _w ， s _w ）（稳健标准差估计）则不受或较少受到异常值或偏态分布的影响。

总体截尾平均数（ μ _t ）95％置信区间利用截尾平均数和缩尾标准差，计算公式为：

其中，是自由度为 ν ＝ n －2 g －1（ g ＝［ γ n ］， γ 是截尾量）的双尾 t 分布1－2／ α 对应的分位数。研究中通常采用20％截尾平均数和20％缩尾标准差，即 γ ＝0.2。

假如有以下一组按升序排列的数据（ n ＝20）：23，23，24，24，24，25，25，26，26，27，28，28，28，29，30，31，35，37，44，49，试求总体截尾平均数95％置信区间。本例中， α ＝0.05， ν ＝11， γ ＝0.2，20％截尾平均数＝27.25， S _w ＝2.796 1，＝2.201。利用公式4.5，总体截尾平均数 95％ CI 为：［27.25－2.201× ，27.25＋2.201× ，即［24.96，29.54］。R计算20％截尾平均数95％ CI 的函数为来自数据包Rallfun－v37中的trimci（x，tr＝0.2，alpha＝0.05，null.value＝0），其中，x是数值向量，tr＝0.2是默认的截尾量，alpha＝0.05为默认的第一类错误率。

如果利用常规平均数（＝29.3）计算总体平均数 95％ CI ，则得到：［26.02，32.58］。总体平均数 μ 95％ CI 比总体截尾平均数 μ _t 95％ CI 要宽。在数据服从正态分布时，和都是总体平均数 μ 的无偏估计。当总体分布呈偏态时，估计总体截尾平均数，通常比 μ 更接近更多的观测值（Kline，2013，p.58）。利用函数out（x）诊断发现，本例数据有两个异常值（44，49），分布右偏，比更能反映数据的集中趋势，建议本例使用截尾平均数95％置信区间。

4.2 截尾平均数95％置信区间

4.2
截尾平均数95％置信区间